双语无监督句法分析及其在机器翻译中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tina_lh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来基于统计的自然语言处理方法逐渐兴起并成为当今的主流方法。而人工标注资源作为统计建模方法的主要知识来源,在当今的自然语言处理方法中发挥着重要的作用。在为统计建模带来便利的同时,人工标注资源的稀缺性也同样带来了相应的问题。相对英语、汉语等研究起步较早的语言,世界上大多数其他语言的人工标注资源种类和规模都要落后的多,成为了制约相应语言自然语言处理技术发展的一个瓶颈。除此之外,随着互联网高速发展带米的信息爆炸增长和语言的快速发展,完全基于人工主观标注资源的自然语言处理技术已难以满足当前快速变化和适应的需求。  相比之下,基于无监督统计建模的方法由于无需人工标注资源从而摆脱了上述问题,因此成为了自然语言处理研究的热点之一。进一步地,更多地引入客观有效的信息对无监督方法具有积极意义,所以引入含有丰富信息且更易获得的双语平行资源能够很好地辅助无监督建模。  围绕着自然语言处理中的句法分析问题,本文提出了基于双语框架训练的多种无监督方法,并将部分方法应用到基于句法的机器翻译巾。本文的主要创新点如下:  1.跨语言约束的单语无监督依存分析  由于纯无监督依存句法分析方法和标注迁移方法利用不同的学习方法进行句法结构学习并且在学习过程中遵从完全不同的学习标准,因此本文中提出了一种新型的利用双语标注迁移信息作为指导的无监督句法分析的方法。在此跨语言约束的无监督依存句法分析方法中,无监督方法能够在适当利用跨语映射信息作为一定的指导的同时更好地无监督挖掘目标语言的潜在依存句法结构。  2.松弛同构的双语无监督句法分析  由于双语本质存在的异构性,所以完全同构的双语句法分析建模并不合理。因此在本文中我们提出了一种松弛同构的思想,在进行双语无监督句法学习时使用松弛同构信息作为约束。在该方法中我们同时以双语两端的单语句法模型和双语同构一致性为目标进行无监督句法学习,从而在此约束下获得更好的无监督句法模型,并利用其具有松弛同构的特点的双语句法结构改进基于句法的机器翻译。  3.松弛同构的双语伪同步无监督句法分析  由于当前基于句法的机器翻译大多利用同步文法对输入序列进行解码,因此在解码过程中源端和目标端将会同时生成同构的解码路径树。如果能在无监督句法分析过程中更多地考虑句法翻译的同构需求,则我们能够在基于句法的翻译中获得更好的效果。基于上述观察我们在本文中提出了松弛同构的双语伪同步无监督句法分析方法,将双语在松弛同构的基础上对进行更加紧密的伪同步建模,在模型中同时利用双语信息进行联合的句法分析。从而在松弛同构模型的基础上达到更加一致的结构,最终进一步地提升生成的双语句法结构在基于句法的机器翻译上的效果。
其他文献
作者首先总结了模糊数学和数据挖掘相结合的各种方法,并着重研究模糊关联规则的数据挖掘的方法,并提出了对布尔型关联规则、数据型关联规则、周期型关联规则模糊化的方法,提
基于概念的视频检索技术,经过近十年的研究和发展,已经成为缩小“语义鸿沟”的有效途径,成为基于纯文本视频检索的有效补充。近年来,随着视频分享网站的蓬勃发展,面对内容丰富,标注
随着视频分辨率和帧率的不断提高,访存已成为视频编解码应用的主要性能瓶颈。现有的视频编解码标准主要着力于提高编码效率和改进压缩性能,并未对访存给予更多的考虑。随着访存
为了达到血管精细分割的目的,本文针对肝脏序列CT图像数据中目标血管与肝实质灰度相近、肝脏内血管树复杂及噪声较多等问题,提出了3种分割算法:运用八元数解析函数的特性提取血
该文将就组播安全三个重点领域:组播安全框架、组播密钥管理、组播数据源验证证展开研究和讨论,并就后两者给出了自己的解决方案或对已有方案EMSS[1]进行了扩展和优化.其中EE
学位
近年来异构加速器凭借其优秀的性能功耗比成为了目前体系结构研究的主流方向。同时随着深度学习的兴起,深度学习神经网络的研究也重新回到了机器学习领域的潮头。因此,如何在加
随着中国城市化进程的不断推进和城市地下管道设施不断完善,传统手工绘制的管道网络图已经很难满足现代化管理的需求。城市化过程中地质的变化引起的城市积水甚至洪水,已经严重
信息时代的到来对信息发布系统提出了新的要求,而传统技术下的信息发布系统却存在着效率代、兼容性差、扩展性差等缺点.CORBA(通用对象请求代理结构)规范作为新一代分布对象
随着信息技术的飞速发展,计算模式从自组织的大型处理机逐渐演变成按需处理的云计算。越来越多的大型公司开始为租户提供迁移服务和应用到公共云平台的机会,如亚马逊,微软,谷