统计与语言学相结合的词对齐及相关融合策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:is_youfeeling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展和信息的国际化,对于不同语言文本内容的理解和传播成为了人们的强烈需求。机器翻译这个古老的课题在这样的背景下重新焕发了生机。词对齐作为统计机器翻译的中间结果,除了在机器翻译中占有重要地位外,在词义消歧等自然语言处理应用领域都有着广泛的应用价值。传统基于统计学的词对齐方法在语料规模方面有着较高的要求,在小规模语料资源上如何解决数据稀疏,进而提高对齐的正确率成为词对齐研究的重点。本文提出了统计和语言学知识相结合及利用相关策略融合的方法来解决这些问题。我们采用了基于信源信道统计机器翻译的对齐模型,结合双语词典、规则和句法结构特征等语言学知识,利用位置信息和词性信息作为过滤条件,分别从增加置信度高的对齐词对、删除错误对齐词对、改进未对齐和多个相同词汇对齐消歧等方面改进了词对齐的质量。其中结合双语词典和句法结构特征的方法分别在准确率和召回率方面有所提高,基于规则的方法在各方面表现优异,达到了0.2503的最低词对齐错误率。此外,我们引入集成学习的观点,将多个词对齐模型作为独立的分类器利用简单和加权的投票策略对分类器进行集成。实验数据表明,融合策略在词对齐准确率方面相对于单纯的基于统计的方法有着不同程度的提高。加权投票策略达到了最高的召回率和最低的错误对齐率,较基准分别提高了17.22%,降低了36.47%。
其他文献
任务/资源分配是计算机科学领域一个重要的研究问题,多Agent系统的特点决定了其任务分配与传统的任务分配有很大的不同。本文利用机制设计的方法研究集中式和分布式多Agent系
六面体网格由于在网格数量、计算误差、变形特性以及抗畸变程度等方面比四面体网格具有明显的优势,目前正成为有限元分析中的主流网格。有限元分析方法是一种有效地求解科学
一个操作系统的核心部分是任务调度模块。调度算法的目的是在正常情况下,尽可能满足所有任务的时限;在峰值负载条件下,保证强实时任务满足时限。系统操作具有的运行性能在很
当前随着网络技术的高速发展和Internet服务的普遍深入,Internet的规模日益庞大,其提供的服务和用户的服务需求也更加多样化和复杂化,同时也对网络性能和网络服务质量不断提
近年来针对XML数据流的处理引起了广泛关注。数据流处理技术可以应用到很多领域,像新闻订阅、传感器网络等,它们都要求能够快速地将以XML编码的数据与大量用户查询进行匹配,
虚拟手技术是实现自然高效的人机交互的关键技术之一,它可以将人在日常生活中获得的经验技能直接运用到人机交互中,符合人类的认知习惯。通过对数据手套原始数据的采样与计算
随着移动互联时代的到来,各类移动应用(App, Application)广受亲睐,不断创造着经济价值。图形学中的人像编辑(Portrait Manipulation)技术顺应了这种潮流:它通过面部美化等方
心律失常是常见的心脏疾病,也是造成猝死的主要原因之一。心律失常发生、发展及药物治疗均与心肌细胞离子通道活动有密切关系。长期以来,对心律失常发生及致病机制的研究都是
人体行为识别是计算机视觉领域内非常热门的一个研究方向,在智能监控等领域都有广泛的应用。传统的识别工作一般是基于RGB视频进行的。近年来,随着微软Kinect等消费级的深度
本文研究并讨论了反模糊粗糙子半群、反模糊粗糙子群、反模糊粗糙正规子群、半群的反模糊理想、反模糊双理想、(-∈,-∈v-q(λ,μ))-模糊子群、(-∈,-∈v-q(λ,μ))-模模糊正规子