中英文双语语料库句子对齐研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:yiwen_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行语料是进行机器翻译研究不可缺少的资源,而句子对齐是双语语料处理的第一步。本文在深入研究了中英文各自特点的基础上,分别使用基于句子长度和基于词汇/词典信息等多种方法对中英文文本进行了对齐,并讨论了影响对齐的各种因素以及对齐的后处理步骤。另外,本文对构建大规模的双语语料库过程中所面临的问题也进行了详细的讨论。   具体的说,本文的工作主要包含以下内容:   1)统计估算了中英文句子长度的相关参数,应用基于句子长度的方法对中英文文本进行了对齐。   2)充分利用双语文本中短语、数字、缩写词、标点符号等丰富的词汇信息,结合句对长度信息,提出了一种基于词汇、长度等混合信息的对齐方法,并利用该方法对中英文文本进行了对齐。   3)运用信息检索领域中TF-IDF权重思想,在充分利用词汇信息的基础上考虑词频信息,以此来估算句对之间的互译评分,并借助于一部英汉双语词典对中英文文本进行了对齐。   4)针对中英文双语文本的多样性,比较了上述几个算法在对噪音不同以及段落对齐与否的双语文本上的对齐效果;并分析了双语词典大小对于对齐效果的影响。   5)讨论了中英文双语对齐的后处理步骤,如对齐结果的选择、双语语料库的编码规范等;并介绍了一个大规模汉英双语平行语料库的构建工作,包括其总体规划和流程细节等。
其他文献
网络安全保障问题是信息化发展过程和使用中必须要面对的问题,网络的开放性与安全性是反比例的关系。在这种情况下,人们都在寻求能够找到防御攻击的方法,但是,当前攻击与防范作为
高性能计算技术一直以来都是整个信息技术的制高点,推动着信息技术的发展。目前的高性能计算机系统由大量的处理结点构成,处理结点之间通过互连网络进行通信和协作。随着并行
透明代理(Transparentproxy)技术广泛用于应用层安全网关,在客户端和服务器之间充当中间人的角色,以实现对流量应用层内容的检测和灵活处理。面对高速网络的应用层安全实时处理
为了解决新型网络服务种类繁多,网络流量和规模大幅增长等网络问题,SDN(Software Defined Networking,软件定义网络)作为一种新的网络架构技术,在近些年得到了快速的发展。其指代了
近年来卫星技术获得了突飞猛进的发展,由于卫星技术本身的特殊性,卫星测试对卫星技术的发展起着至关重要的作用。随着卫星技术的发展,单颗卫星的多阶段测试,多颗卫星同时测试是不
目前,行业信息化发展迅速,但众多应用系统的开发缺乏整体规划和系统性,随着异构环境不断增加,数据共享困难,“数据孤岛”问题愈发突出。从而在网络环境下,解决数据孤岛问题,
随着互联网上信息资源的日益增多,用户对个性化服务的要求不断提高。跨系统个性化服务通过在系统间共享用户的模型使用户的信息可以在系统间得到最大限度的重复利用,从而提高
k近邻查询用于查找距离查询点最近的k个对象,在很多科研领域如知识发现和数据挖掘,模式识别中都有广泛的应用。连续k近邻查询是空间数据库领域中的重要研究课题,连续k近邻查
从第一个机器人灵巧手样机出现至今,已经历30多年的历程。机器人灵巧手的研究,仍然是一个充满问题和挑战的领域。为实现拟人化和集成化的目标,必须进一步攻克机器人灵巧手的
傅立叶变换红外(简称FTIR)光谱仪是继棱镜式红外分光光度计,光栅式红外分光光度计后的第三代红外光谱仪。由于其高分辨率、高信噪比、高通量、高测量精度以及研究光谱范围宽等