层次短语模型的日语时态翻译研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:xxuhhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是自然语言处理领域具有挑战性的前沿课题之一,具有广泛应用价值和重要的商业应用前景。随着网络技术的发展和普及,信息量快速增加,各领域对机器翻译的需求量也越来越多。近几年,统计机器翻译技术发展迅速,取得了一系列令人瞩目的成果,但是在实际应用中,如何在统计机器翻译模型中有效利用语言学知识提升翻译质量仍是一个研究热点。机器翻译是文本处理中的一项重要内容,文本处理常涉及的时序关系对文本推理和筛选具有重要意义,而时态则扮演了不可或缺的角色。目前,在统计机器翻译中,关于时态的研究主要局限在时态识别方面,对时态的翻译研究较少。时态信息是重要的语言学信息,因此本文研究的时态问题,转换为在统计机器翻译中融入时态等语言学知识的问题。本文以日语为研究对象,从日汉和日英两个角度,对时态翻译进行研究。日语属于黏着语系,其时态由谓词词尾变形决定,且谓语词尾的变化多种多样,不同时态表达存在相似词尾,导致统计机器翻译的时态翻译精度低下。针对上述问题,本文提出了一种融合时态特征的统计机器翻译方法,主要研究成果如下:(1)提出了一种基于日语依存结构的时态分类方法。该方法通过解析日语依存句法分析结果,并结合目标语言时态特点,提取时态相关信息,构建最大熵时态分类模型。该模型可有效识别时态,其分类准确率表明了该分类方法的有效性。(2)提出了一种面向层次短语翻译模型的时态特征抽取算法。该算法可以实现在抽取翻译规则的同时,抽取满足一定条件的规则的时态特征。这些时态特征可以指导翻译过程的规则选择,使翻译结果更加符合语言学知识,保证了相关词汇选择和语言的结构调序。(3)提出了一种在统计机器翻译中融合时态特征的方法。该方法实现了对不同时态的规则的选择过滤,而没有增加解码器的复杂度。并且对语种没有依赖性,仅需根据语言语法的不同,选择融合单语时态特征或双语时态特征。翻译实验结果表明该方法提升了翻译质量,可有效改善时态翻译问题。本文将时态特征融入统计机器翻译模型。日汉及日英翻译的实验结果表明,本文提出的方法不仅可以有效提高层次短语模型在时态上的翻译精度,还可以达到词义消歧和改善句子结构调序的目的。
其他文献
演变是未来通信网络发展的主旋律,未来通信网络将会演变成有线网络和无线网络融合的全IP通信网。未来无线通信系统将会把各种提供不同业务的无线接入网络连接到基于IP分组的
随着计算机科学技术的迅速发展以及互联网的普及应用,每天生活中都产生了大量的多媒体数据,这些数据大多数是以图片、视频等形式呈现的。面对如此庞大的且快速增长的多媒体数
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规则自由度大和极其复杂的特点,针对信息抽取
现今,由于信息的存储、传输和处理越来越多地在开放网络上进行,信息易受到窃听、截取、篡改、伪造和重放等各种攻击手段的威胁。在现代的制造业生产流程中,企业与企业之间、部门
近些年来,随着生产制造企业网络规模的不断扩大,对网络的管理变得越来越困难。加上工业网络所处的特殊的环境,很容易造成设备故障,从而给企业带来经济损失甚至是人员伤亡。如
BBS作为一种新兴的交互性强的媒体,越来越受到网民的青睐,成为了新闻、观点和民声的集散地,是网民获取信息和发表评论的重要渠道之一。BBS上的发帖和回帖都围绕一个个话题,而这些
本论文中的应用程序使用C#语言编程实现,该应用程序可以计算往返时间,并能够提供有关数据传输和连接稳定性的信息数据,这些功能对于从事网络管理的工作人员非常有用。   由于
视频运动目标跟踪是当前计算机视觉领域最活跃的研究主题,作为一门跨学科的前沿技术,它融合了图像处理、模式识别、人工智能等多种不同领域的理论知识,广泛应用于军事和民用方面
中文分词是中文信息处理领域的一项基础性课题,未登录词识别问题又是中文分词的瓶颈问题之一。为了解决中文分词中的未登录词识别效率低下的问题,本文在分析现有未登录词识别