首页 > 试题

英中可比语料库中多词表达自动提取与对齐

更新时间:2025-12-19 10:02:42 阅读: 评论:0

夏令营-有趣的童年作文


2023年11月18日发(作者:饮食禁忌)

Compu ̄r Engineering andApplcatons计算机工程与应用

英中可比语料库中多词表达自动提取与对齐

肖 健,建,徐晓兰,

XIA0 Jian,XU Jian,XU Xiao—lan,YUAN Qi

中国电子信息产业发展研究院,北京00044

China Centerornformaton Industy Development,Beijing 100044,China

E-mail:Yq@ccidicom

XIAO Jian,XU Jian,XU Xiao-lan,et a1Automatic extracton and alignment of mulword expressions from English-Chi-

nese comparable corpus.Computer Engineering and AppHeafons,2010,46(31):130-134.

Abstract:Mulword Expressions(MWE)arempornt practcal applcatons,such as machineansaton(henceforh,

MT),mulngualnforon reteval,data mining and other nauralanguage processng.A metod of combining semant

emplat and statistical tool is proposed fr automatically extracting native English MWE from three—tuple compaable corpus.

Thesaurus-based ad distributional methods are harnessed to calculate the semantic relations between words fr improving

MWE coverage.GIZA++is executed to align words at sentence leve1.aiming at obtaining Chinese MWE candidates.For each

native English MWE,al of te Chinese MWE cadidates are collected and sorted according to their CO-occurrence afnity.

Only te tp one is accepted as true Chinese translation of te given English MWE.Experimental results show te proposed

technique improves MWE extaction ad alignment efciently.

Key words:three—upl comparable corus;mulword expressions(MWE);semac templat

要:多词表达(MwE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。

为此,提出了基于语义模板与基于统计工具相结合的方法从三元纽可比语料库中自动提取本族英语MWE。采用基于词表和分

布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIzA++对齐算法提取对译的中文MwE,依据统计方法计算互译概率

信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。

关键词:三元组可比语料库;多词表达(MWE);语义模板

DOI:10.3778 ̄.n.1002.8331.20r0_31.037 文章编号:1002.8331(2010)31-0130 05 文献标识码:A 中图分类号:TP391

引言

平行语料库(paralel corus)由源语文本和目标语文本构

成,长期以来在机器翻译领域被广泛用于构建MWE互译对的

研究和应用,用以提高机器翻译系统的质量。随着研究的进

(weapons of mas desructon)等,而这些新词及其对译词对

MWE提取和对齐起着十分重要的作用。

可比语料库(comparable corus)是由某些具有相同属性

步深入,研究人员发现基于平行语料库获取MWE互译对存

在汉英机器翻译中,目标语若为英语且由中国人翻译,pus)由本族英语(本族英语指由以英语为母语的人写的英语)

的文本构成,EAGLES项目1996年将可比语料库定义为:“选

取了一种语言以上的相似文本或者一种语言的不同类型文

本”。本文的三元组可比语料库(ee.uple comparablor

在如下不足:(1)MWE互译对中,目标语存在“扭斜”现象。

带有明显的“翻译腔”,称之为中式英语(Chineseansato.

文本、中式英语文本和中文文本构成。通过对比本族英语和

中式英语之间的差别,解决由中式英语导致的“扭斜”问题,

nese)。例如,当我们使用Google检索“英国电子信息产品”,

检索的结果均涉及“英国电子图书文献”。其根源是国内具有 定了高质量的MWE互译对基础,从而提高机器翻泽的质量。

扭斜特征的平行语料库训练得到的应用系统,因为该应用系 当然,这样的可比语料库,除了有助于提高机器译文质量之

具有扭斜的语言模型,所以通过该平行语料库,国内的“电子 外,也有助于提高人工翻译质量。三元组可比语料库中的英

信息产品”无法生成“eleconicsd IT products”,但却生成 语是由本族英语和中式英语构成,由不同的人用同一种语言

了扭斜的“eleconinforon products”;(2)平行语料库难 来描述事件。例如,针对体育赛事,不同的人很可能分别用本

以捕获新词(未登录词)及其对译词,例如,大规模杀伤武器

族英语和中式英语对同一事件进行报道,因此具有可比性。

基金项目:国家自然科学基金(he Nana Natur Scnce Foundan of China unde Grnt No.0872118)。

作者简介:肖健(1972.),男,硕士 研究方向:自然语言处理、机器翻译;徐建(1982.),男,硕士,研究方向:自然语言处理、机器翻译;徐晓兰

(1964.),女,硕士,研究方向;计算机应用、中文信息处理;袁琦(1939.),男,研究员,研究方向:中文信息处理、机器翻译。

收稿日期:2009.2.30修回日期:2010—03-

与平凡相伴-动物的特点


本文发布于:2023-11-18 08:12:20,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/88/32382.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:英中可比语料库中多词表达自动提取与对齐.doc

本文 PDF 下载地址:英中可比语料库中多词表达自动提取与对齐.pdf

标签:英中互译
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|