Compu ̄r Engineering andApplications计算机工程与应用
英中可比语料库中多词表达自动提取与对齐
肖 健,徐建,徐晓兰,袁琦
XIA0 Jian,XU Jian,XU Xiao—lan,YUAN Qi
中国电子信息产业发展研究院,北京100044
China Center for Information Industry Development,Beijing 100044,China
E-mail:Yq@ccidit.com
XIAO Jian,XU Jian,XU Xiao-lan,et a1.Automatic extraction and alignment of muliword expressifons from English-Chi-
nese comparable corpus.Computer Engineering and AppHeafions,2010,46(31):130-134.
Abstract:Mulifword Expressions(MWE)are important for practical applications,such as machine translation(henceforth,
MT),multilingual information retrieval,data mining and other natural language processing.A method of combining semantic
template and statistical tool is proposed for automatically extracting native English MWE from three—tuple comparable corpus.
Thesaurus-based and distributional methods are harnessed to calculate the semantic relations between words for improving
MWE coverage.GIZA++is executed to align words at sentence leve1.aiming at obtaining Chinese MWE candidates.For each
native English MWE,all of the Chinese MWE candidates are collected and sorted according to their CO-occurrence afinitfy.
Only the top one is accepted as true Chinese translation of the given English MWE.Experimental results show the proposed
technique improves MWE extraction and alignment eficifently.
Key words:three—tuple comparable corpus;multiword expressions(MWE);semantic template
摘要:多词表达(MwE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。
为此,提出了基于语义模板与基于统计工具相结合的方法从三元纽可比语料库中自动提取本族英语MWE。采用基于词表和分
布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIzA++对齐算法提取对译的中文MwE,依据统计方法计算互译概率
信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。
关键词:三元组可比语料库;多词表达(MWE);语义模板
DOI:10.3778 ̄.issn.1002.8331.20r0_31.037 文章编号:1002.8331(2010)31-0130 05 文献标识码:A 中图分类号:TP391
1引言
平行语料库(parallel corpus)由源语文本和目标语文本构
成,长期以来在机器翻译领域被广泛用于构建MWE互译对的
研究和应用,用以提高机器翻译系统的质量。随着研究的进
一
(weapons of mass destruction)等,而这些新词及其对译词对
MWE提取和对齐起着十分重要的作用。
可比语料库(comparable corpus)是由某些具有相同属性
步深入,研究人员发现基于平行语料库获取MWE互译对存
在汉英机器翻译中,目标语若为英语且由中国人翻译,则 pus)由本族英语(本族英语指由以英语为母语的人写的英语)
的文本构成,EAGLES项目1996年将可比语料库定义为:“选
取了一种语言以上的相似文本或者一种语言的不同类型文
本”。本文的三元组可比语料库(tree.htuple comparable cor.
在如下不足:(1)MWE互译对中,目标语存在“扭斜”现象。
带有明显的“翻译腔”,称之为中式英语(Chinese translatio.
文本、中式英语文本和中文文本构成。通过对比本族英语和
中式英语之间的差别,解决由中式英语导致的“扭斜”问题,奠
nese)。例如,当我们使用Google检索“英国电子信息产品”,
检索的结果均涉及“英国电子图书文献”。其根源是国内具有 定了高质量的MWE互译对基础,从而提高机器翻泽的质量。
扭斜特征的平行语料库训练得到的应用系统,因为该应用系 当然,这样的可比语料库,除了有助于提高机器译文质量之
具有扭斜的语言模型,所以通过该平行语料库,国内的“电子 外,也有助于提高人工翻译质量。三元组可比语料库中的英
信息产品”无法生成“elecrtonics and IT products”,但却生成 语是由本族英语和中式英语构成,由不同的人用同一种语言
了扭斜的“electronic information products”;(2)平行语料库难 来描述事件。例如,针对体育赛事,不同的人很可能分别用本
以捕获新词(未登录词)及其对译词,例如,大规模杀伤武器
族英语和中式英语对同一事件进行报道,因此具有可比性。
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60872118)。
作者简介:肖健(1972.),男,硕士 研究方向:自然语言处理、机器翻译;徐建(1982.),男,硕士,研究方向:自然语言处理、机器翻译;徐晓兰
(1964.),女,硕士,研究方向;计算机应用、中文信息处理;袁琦(1939.),男,研究员,研究方向:中文信息处理、机器翻译。
收稿日期:2009.12.30修回日期:2010—03-17
本文发布于:2023-11-18 08:12:20,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/88/32382.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:英中可比语料库中多词表达自动提取与对齐.doc
本文 PDF 下载地址:英中可比语料库中多词表达自动提取与对齐.pdf
| 留言与评论(共有 0 条评论) |