- 1、本文档共106页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
近二十年来,机器翻译(machinetranslation,MT)研究迅猛发展。相比于传
machine
translation,SMT)在译文质量和系统鲁棒性上均展
器翻译(statistical
示出巨大优势,并已经成为机器翻译研究领域中的主流方法。
给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标
语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条
不同的目标语言翻译假设(translationhypotheses)。然而,由于翻译模型本身的
局限性,系统排名最高(1一best)的翻译假设通常却并不是全部翻译假设中的最优
结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语
言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利
用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器
翻译研究领域中的一个热点课题。本篇博士论文针对该课题进行了一系列深入
而系统的研究,并按照下述框架组织全文:
首先,本文将该课题目前已有的研究成果大体分为如下两类,并提出一个
统一的一致性解码consensus
decoding)框架,将这两类方法包括其中:
·翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方
法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假
设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最
终的翻译结果;
·系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使
用翻译单元的不同,该类方法又可划分为句子级(sentence—level)、短语
融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。
然后,针对已有典型工作的不足,本文提出四种新型的一致性解码方法:
·基于特征子空间的句子级系统融合给定任意基于对数一线。Ifl!(109—linear)模
型的(t)SMTN统,通过选取该系统特征全集的不同特征子集来构造多
个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融
合方法,来选取最终的翻译结果。
该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程
度地减少了系统融合工作中多翻译系统构造方面的巨大开销;
统计机器翻译中的一致性解码方法研究
·协作解码给定多个基于对数一线性模型的SMT系统,通过共享翻译假设空
间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其
他翻译系统生成的翻译假设空间计算得到的n—gram统计量特征,来对自
身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够
通过系统融合的方法获取进一步的性能提升。
该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免
更优的局部翻译假设被较早剪枝囟地佗i佗鲥的问题;
·基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻
译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻
译假设空间上计算MBR解码所需的n—gram统计量特征,进而从全部翻译
候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合
模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基
于混合概率分布计算的12一gram统计量也更为准确,因此,该方法能够获得
的性能提升也更多。
该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT.系-.统扩
展到多个.伽T系统;
·翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一
个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间
中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法
在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。
该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优
点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大
您可能关注的文档
- 松嫩草地蔓委陵菜无性系种群动态.pdf
- 宋诗中的古琴艺术.pdf
- 苏州市人口变动的数理仿真与研究.pdf
- 算子的k-数值域和正交投影算子对.pdf
- 损伤控制性外科在合并腹部创伤的严重多发伤中应用.pdf
- 太行山猕猴掌面花纹嵴数的形态学与研究.pdf
- 太阳能溶液再生装置热湿耦合特性及性能与研究.pdf
- 泰乐菌素-阿莫西林联用对猪链球菌体外药效学及MSW研究.pdf
- 痰湿体质基础与研究及其与代谢综合征相关性的探索.pdf
- 糖耐量正常、糖调节受损和糖尿病患者不同血糖水平代谢特征及相关因素分析.pdf
- 教科版科学一年级上册第一单元《植物》测试卷精品(网校专用).docx
- 新教科版四年级科学上册期末测试卷及参考答案(考试直接用).docx
- 新部编版二年级上册道德与法治期中测试卷附答案【研优卷】.docx
- 一年级上册数学期中测试卷完整.docx
- 部编版小学四年级下册道德与法治《期末测试卷》及答案(新).docx
- 部编版二年级下册道德与法治 期末考试试卷含完整答案【必刷】.docx
- 教科版科学一年级上册第一单元《植物》测试卷及完整答案【精品】.docx
- 2023年现场总线仪表通讯模板项目分析评估报告.docx
- 2023年皮革、毛皮及其制品加工专用设备项目分析评估报告.docx
- 2023年特种运输项目评估分析报告.docx
文档评论(0)