统计机器翻译中的一致性解码方法与研究.pdf

统计机器翻译中的一致性解码方法与研究.pdf

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 近二十年来,机器翻译(machinetranslation,MT)研究迅猛发展。相比于传 machine translation,SMT)在译文质量和系统鲁棒性上均展 器翻译(statistical 示出巨大优势,并已经成为机器翻译研究领域中的主流方法。 给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标 语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条 不同的目标语言翻译假设(translationhypotheses)。然而,由于翻译模型本身的 局限性,系统排名最高(1一best)的翻译假设通常却并不是全部翻译假设中的最优 结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语 言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利 用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器 翻译研究领域中的一个热点课题。本篇博士论文针对该课题进行了一系列深入 而系统的研究,并按照下述框架组织全文: 首先,本文将该课题目前已有的研究成果大体分为如下两类,并提出一个 统一的一致性解码consensus decoding)框架,将这两类方法包括其中: ·翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方 法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假 设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最 终的翻译结果; ·系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使 用翻译单元的不同,该类方法又可划分为句子级(sentence—level)、短语 融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。 然后,针对已有典型工作的不足,本文提出四种新型的一致性解码方法: ·基于特征子空间的句子级系统融合给定任意基于对数一线。Ifl!(109—linear)模 型的(t)SMTN统,通过选取该系统特征全集的不同特征子集来构造多 个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融 合方法,来选取最终的翻译结果。 该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程 度地减少了系统融合工作中多翻译系统构造方面的巨大开销; 统计机器翻译中的一致性解码方法研究 ·协作解码给定多个基于对数一线性模型的SMT系统,通过共享翻译假设空 间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其 他翻译系统生成的翻译假设空间计算得到的n—gram统计量特征,来对自 身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够 通过系统融合的方法获取进一步的性能提升。 该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免 更优的局部翻译假设被较早剪枝囟地佗i佗鲥的问题; ·基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻 译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻 译假设空间上计算MBR解码所需的n—gram统计量特征,进而从全部翻译 候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合 模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基 于混合概率分布计算的12一gram统计量也更为准确,因此,该方法能够获得 的性能提升也更多。 该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT.系-.统扩 展到多个.伽T系统; ·翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一 个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间 中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法 在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。 该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优 点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大

文档评论(0)

baihuamei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档