汉维双语语料库中句子对齐技术的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:helen_00_00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。本文以平行语料库及其对齐技术在面向政府文献的汉维机器辅助翻译中的应用为背景,介绍了汉维双语语料库的建设方法,讨论了汉维双语语料库中句子对齐技术和段落对齐技术。首先本文通过统计分析,验证了汉维双语文本之间存在着较为稳定的长度关系规律,因此采用基于长度的句子对齐方法,并利用动态规划的方法进行问题的最优化。然后本文考虑到基于回车符的方法在实际应用中的缺陷,提出了一种基于锚点句对的分段对齐方法,并根据需要,将上述两种方法相结合,形成了一种多层次分段对齐方法,进一步提高了句子对齐的运行效率和正确率。
其他文献
随着Internet的广泛应用,许多原本独立的设备和系统开始与Internet互联,使越来越多的信息资源共享成为可能。嵌入式系统接入Internet的技术难点在于:如何利用嵌入式系统自身有限
计算机电话集成(CTI,ComputerTelephoneIntegration)技术是计算机网络和传统电话相结合的产物。基于CTI的集成信息系统,对许多企业的经营方式产生了重要的影响,它是实现开放型客
随着互联网和电子商务的发展,目前许多公司都通过Web广告来推广自己的产品,很多大型互联网公司的主要收入来源也来自于Web广告,因此目前对Web广告的研究越来越热门。为了研究
随着控制网络发展与普及,控制网络中的时间同步技术也得到了迅速的发展,目前应用于工业控制网络测量的时间同步协议标准主要是IEEE1588标准,此标准对控制网络中的现场设备时间同
随着信息的爆炸性增长,存储行业成为IT领域的一个新兴的增长点。数据量的指数级增长,存储应用的不断变化,对存储管理提出了新的挑战。存储管理对于这个存储系统的可用性、可
传统的IP多播方案是为一对多,多对多的通信模型而设计的。然而由于IP多播方案的技术性问题和IP多播方案所带来的市场问题,使得IP播方案在提出10年以后仍然没有在Internet上成功
长非编码RNA(long noncoding RNAs)是一类长度超过200个核苷酸的非编码RNAs,大量研究表明,lncRNAs在许多重要的生物过程中起着关键作用,并且其突变和失调与许多疾病有关。然而通
数据库是构建信息系统的重要基础,数据库安全也成为了信息安全的重要研究领域。目前大部分数据库都是以明文存储并且没有验证机制,采用一般的身份验证与识别和存取控制技术并
随着信息技术的飞速发展,Internet已经发展成为当今世界最大的信息库,并且成为全球范围内传播信息和获取信息的最主要途径之一。Internet上出现越来越多的信息,同时也出现了
当前的物流信息公共平台普遍缺乏严格的注册审查机制,信息有效率低,很多物流公司没有网上查找商机的习惯。容发货运市场计划建立一个拥有大屏幕显示终端和多个触摸屏终端的物流