汉英双语平行语料库中对齐方法的研究

来源 :山西大学 | 被引量 : 11次 | 上传用户:zhp5211018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,双语平行语料库的重要性日益加强,其研究工作主要是集中在构建、对齐和标注等方面。它在在机器翻译、词典编纂、多语言信息检索、术语提取等领域有着重要的研究价值。 在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语平行语料库的研究国内外都相对较少,近年来才刚刚起步。本文的工作主要集中在汉英双语平行语料库词语对齐及词义排歧的研究上,主要包括以下部分: 1.实词对应。在详细考察各类统计参数的基础上,对高频实词提出了适合于汉英两个不同体系语言的一种混合的统计方法,而对低频实词则充分利用词典获取对应信息,最后采用一种综合的基于竞争链接的对应算法,取得了较好的效果。 2.双语语块的识别和对应。本文充分利用已有的实词对应信息,将语块的划分和对应同时进行,这样使得对应和划分能相互提供信息,有效地避免了当前绝大多数算法中存在的双语语块边界划分不一致的情况。 3.名词短语的对应。本文根据名词短语的统计特征,对高频名词短语采用迭代重估算法;对低频短语,则采用类似于低频实词的对应方法。这样就能够从整体上把握对应信息,并使结果具有很高的覆盖率。 4.双语词义排歧。当前大多数基于双语语料的词义排歧算法都局限在利用单个多义词的上下文环境及其对应信息,本文则充分利用当前Hownet资源中概念的可计算性,将词义排歧的问题转化为多义词和另一种语言的相应句子的整体意义相似性问题,从一个新的角度来进行词义排歧,因此得出了满意的研究结果。 本文利用汉英两种语言各自的特点,充分利用已有信息,实现了对平行语枓库中各种信息单元的对齐,实验结果表明,效果显著。
其他文献
如何有效利用系统范围内的资源是集群系统研究的一个关键问题,资源负载平衡是实现资源有效共享,提高系统资源有效使用率的必然要求。在网格环境下更是如此——在网格环境中,集群
近年来,有关多Agent理论及应用的研究已经成为分布式人工智能的热点。多Agent系统作为一种新的软件开发模式,不仅要研究多Agent的内部结构与实现框架,还要研究系统的整体体系结
认证、授权和计费(AAA)协议,如TACACS和RADIUS,当初是为了对终端访问服务和PPP拨号服务实行访问控制而开发的。随着互联网的发展,以及新的接入技术的引入(如无线接入、DSL、
数据仓库技术是当今信息管理技术的主流,是促进企业正确管理与决策的重要决策支持工具。数据集市是为满足某个部门或一组用户的信息需求而定义和设计的数据存储,是为特定部门的
文本分类最初是应文本信息检索的要求出现的。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,
本文引入了XML,SOAP,AGP.NET等相关技术,建立了一个新的基于Web Services的个性化学习系统,其中包括在线考试,在线练习,在线答疑等功能。整个系统自底向上依次为数据层,服务
随着交通产业现代化的任务日益繁重交通智能化的要求越来越迫切。在交通网络智能化的研究过程中逐步形成了智能交通系统ITS这一新的领域。 针对我国目前交通状况及发展趋
入侵检测是一种主动保护网络资源的安全防护技术,它是对“防火墙”、“数据加密”、“访问控制”等信息安全措施的有效补充,能够用于对计算机及网络资源上的恶意使用行为进行识
Internet的诞生和快速发展给人类的生活方式和工作方式带来巨大的变化,也令沟通与信息传递方式呈现出前所未有的便利和快捷。人们已经不满足于在网络上传输简单的文本图像信
指纹识别技术是目前最成熟的生物识别技术,在国内外已有很多自动指纹识别系统投入实际应用。指纹识别技术透过比对两个指纹图像是否匹配,经由验证从而保证系统安全,这就带来