汉英文本级句子对齐技术的研究

来源 :东北大学 | 被引量 : 4次 | 上传用户:bright202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语语料库是存放两种语意对齐的语料资源和信息的仓库,是机器翻译和多语言处理的重要资源,被广泛的应用于机器翻译、机助人译、翻译知识的抽取、词义排歧、跨语言信息检索等领域。其中,对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。双语文本级句对齐包含了段落对齐和句子对齐,二者对齐原理类似。基于汉英双语的实际情况,本文主要从对齐的准确性和速度方面,在兼顾准确率和召回率的前提下,提高文本对齐的速度。首先,根据本文提出的锚点对齐算法,将文本划分为文本块。该方法利用文本中的命名实体如人名、地名、组织机构名和数字类、时间类、日期类等这些特殊信息,利用动态规划算法将文本划分为几个片段。实验证明,该锚点对齐算法在段落对齐和句对齐中准确率可以达到98%。然后,在文本段落对齐实验中,采用基于长度和均等权重的词典对齐结合的对齐方法,获得了良好的对齐效果,准确率达到93.4%。添加锚点对齐后的段落对齐,召回率增加了,对齐速度是以前的2.5倍。在文本句子对齐实验中,分别进行了直接句对齐和先段落对齐后句对齐的实验,实验结果表明含有段落信息的文本句对齐要比直接进行句对齐效果好。直接句子对齐不利用段落信息,其中基于长度和TF-IDF权重的词典对齐方法最好,准确率达到93.6%,添加锚点对齐后,准确率一致的情况下,召回率提高了0,5个百分点,运行速度提高了3.4倍。含段落信息的文本句对齐中,首先利用基于长度和词典结合的方法进行段落对齐,然后利用直接句子对齐的方法,准确率达到了92.8%,在整个对齐过程中,添加锚点对齐后,准确率一致的情况下,召回率提高了0.5个百分点。本文的主要工作分为两部分:一是提出基于锚点对齐方法,将待对齐的文本划分为小的片段,然后在片段内进行段落对齐或句子对齐,实验表明,该方法准确率达到98%。二是结合长度对齐方法和双语词典对齐方法的特点,将二者融合到文本级段落对齐和句子对齐中,总结出了适用于段落对齐和句子对齐的方法。
其他文献
移动通信技术的不断成熟和智能终端设备的广泛应用,为移动社交网络(MSN, Mobile Social Networks)的提出和发展奠定了坚实的基础。作为一种全新的应用模式,园区型MSN是现实社
CPS(信息物理融合系统)是随着计算技术,控制技术等迅速发展起来的新一代系统,它是建立在嵌入式计算,无线传感器网络基础上的,具有广泛的应用前景。CPS系统已经成为很多国家和
随着各种IP业务的迅速增长,在统一的IP网络平台上提供多种业务已经成为业界的共识。但现有的IP网络“尽力而为”的传输模式使其无法满足多媒体应用和各种用户对网络传输质量的
特征造型技术是新一代CAD/CAM集成系统的关键技术之一,是产品模型设计的核心。参数化技术和变量化技术是提高特征造型系统设计效率的两种主要方法,基于特征的参数化技术和变量
粗糙集理论是20世纪80年代初由波兰数学家首先提出的一种刻画不确定和不完备知识的数学工具,能有效地分析和处理不精确、不一致、不完整等各种信息,并从中发现隐含的知识,揭
图像信息丰富,数据量大,如何对图像数据进行压缩处理,目前已发展成为专门的研究领域——图像压缩编码。如何有效地组织、存储、传输和恢复图像数据,即探索更有效、更高压缩比的图
社会标注系统中存在三种类型的推荐任务:标签推荐、资源推荐和用户推荐,这些推荐任务在帮助用户标注资源、获取信息及提升参与度方面具有着重要的意义。然而社会标注系统自由
数字水印是信息隐藏技术的一个重要分支,是一种全新的数字产品保护技术,它是将标识作者的版权保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分
近年来,结构化P2P系统以其低跳数的资源定位、路由确定性及平衡负载特性,成为学术界的研究热点。结构化系统都可以看作是由各种静态拓扑扩展而来,因此其基础结构始终面临着拓扑
随着计算机以及通信等技术的发展,人们对物品或人的位置的需求也越来越强烈,定位技术发展迅猛。室外定位系统如GPS最为人们熟知。但是在小范围内的定位来说,由于周围环境的影