基于上下文信息的领域自适应机器翻译研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:Ben_Chen111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是利用计算机把一种源语言转变为另一种目标语言的过程,其依赖的技术与自然语言处理,人工智能,计算机语言学息息相关,是当前最重要,最具挑战性的课题之一。目前最主流的机器翻译方法是基于短语的统计机器翻译。其基本流程可以概括为:分析双语平行句对、从大量词对齐的句对中学习带有翻译特征的短语翻译规则、使用短语翻译规则构建翻译模型,对于待翻译的句子,通过一系列的翻译规则之间的组合,解码后,得到最优的解码方案作为翻译结果。翻译效果的信、达、雅一直是机器翻译从业者孜孜不倦的追求目标,但是传统的统计机器翻译中的翻译规则是一种上下文无关语法(SCFG),这种规则并没有考虑到全文的主题信息对翻译规则的影响,也没有考虑文本单句间的上下文信息对翻译规则选择的影响,不能进行跨领域的自适应翻译。针对传统机器翻译的这一缺陷,本文对原有翻译模型进行改进,加入了新的调序分类模型,把上下文信息的相关特征加入到解码的考虑范围内,实现了跨领域的自适应翻译,达到了更好的翻译效果。实现基于上下文信息的领域自适应翻译所采用的方法有:(1)在翻译规则中加入和主题有关的特征。在不同领域中,同样的源语的翻译文字很有可能是不相同的,领域的主题信息对于源语的翻译结果产生很大的影响。在统计机器翻译的解码过程中,新加入的和主题由关的特征可以提供规则选择的依据。利用短语和待翻译文档的主题匹配度作为选择依据,以实现不同领域主题下的自适应翻译。(2)利用句内信息实现翻译规则动态选择以达到自适应翻译的目的。我们知道,一个句子中相同的短语,在翻译过程中,被翻译成的文字受到上下文信息影响较大,不同的上下文对翻译结果和短语翻译的顺序会产生影响。传统的基于统计的机器翻译并没有考虑句内信息对翻译规则选择的影响。本文通过加入以句内信息为特征的最大熵分类模型,实现了翻译过程中根据句内信息对翻译规则动态选择和短语间的调序,提升翻译效果。实验结果表明,把待翻译文档的上下文信息中主题信息,句内信息等有用特征加入到统计机器翻译的解码过程中,能很好的提升翻译质量,达到更好的翻译效果。
其他文献
针对在智慧管网环境下,大量多元化智能终端设备或传感设备接入前置机时,如何统一入口进行海量数据的高效能通信,提出了一种可行的解决方案。依据该方案开发的智慧管网通信前置系统,可以实现多台前置机高效协同通信与负载均衡,能实时获取海量的城市管线设施传感数据,是一种通信能力可扩展的高性能通信前置系统。
糯玉米最早是在我国发现的,我国发展糯玉米食品产业具有独特的优势;根据糯玉米原料的特点,我国应该努力发展糯玉米原料粉、粘性食品和支链淀粉产业;通过加强政策引导,构建区
以儒家为核心的中华民族优秀传统文化不仅在历史上产生过深远影响,对实现中华民族伟大复兴乃至世界文明繁荣进步也有着广泛而深远的意义。中国传统文化在“全盘西化论”、“
刑事一体化是一种动态的、整体的和关系性的观念与方法,在罪刑条文的建构过程中可以具体化为罪刑条文一体化。根据罪名具有概括性的特征,建构罪刑条文体系的关键,是在坚持罪名法
目的 观察喜疗妥软膏(通用名为多磺酸粘多糖乳膏)与50%硫酸镁预防斑蝥酸钠所致静脉炎的效果。方法 将80例患者随机分为两组,一组局部涂以喜辽妥软膏,另一组给予50%硫酸镁湿敷,
现有复杂网络社区挖掘方法由于单一利用节点链接信息或属性信息,从而无法有效发现成员链接紧密且属性高度相同的社区,针对该问题提出一种可集成节点链接和属性信息进行社区挖
目的:观察温阳利水汤对急性心力衰竭(AHF)合并1型心肾综合征(CRS)患者心肾功能保护效应。方法:将90例AHF合并1型CRS患者随机分为观察组(n=45)和对照组(n=45),对照组给予常规
技术的发展和社会的进步催生出新的零售业态,无人零售模式以"低成本"和"高便利性"的特征成为了数字化城市的一个标识,进一步提升了居民生活的便捷度。线上流量红利的饱和、传