汉文-维吾尔文双语语料库构建的实验性研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:aiyang1115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语语料库在基于实例的机器翻译,翻译知识的获取,双语词典的建立,词义消歧等领域有着重要的应用价值。大规模双语语料库的建设是进行基于语料库研究的基础。如何通过现有的互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。双语对齐技术是加工双语文本的核心。本文以汉文-维吾尔文平行语料库及其对齐技术在面向政府文献和科技文献的汉维机器翻译中的应用为背景,介绍了汉维双语语料库的建设方法,讨论了汉维双语语料库中句子对齐技术和段落对齐技术。首先本文对实验语料进行各种对齐技术,统计出每一种算法的对齐效果,最后总结基于词典翻译的方法是汉维句子对齐加工过程中效率较高的对齐方法。然后本文考虑到基于回车符的方法在实际应用中的缺陷,提出了一种基于数字信息的分段对齐方法,并根据需要,将上述两种方法相结合,形成了一种多层次分段对齐方法,进一步提高了句子对齐的运行效率和正确率。
其他文献
学位
交通在国民经济和社会发展中起着举足轻重的作用。车速检测是交通管理系统中的一个重要组成部分。随着图像处理技术的发展,视频检测技术在车速检测中的应用越来越广泛。本文着
频繁模式挖掘是数据挖掘领域的一个基本问题,其研究范围包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索
20世纪末以数字化为核心的高速发展的信息技术,促使了教育信息化的迅速发展。在国内外高校教育中产生了前所未有的教学模式和教学方法的创新。上世纪90年代问世的大学物理仿真
电子邮件和网络上的文件传输已成为生活一部分,但是随网络技术突飞猛进,黑客技术也蓬勃发展,使得邮件的安全问题日益突出。总所周知,Internet传输的数据是不加密,如不保护自
隐马尔可夫模型(Hiddell Markov Model)是一种双随机过程,被广泛地应用于模式识别和聚类中并取得了不小的成功。HMM有坚实的统计学基础和有效的学习算法,从而在应用科学中成为
本文介绍了遥感图像分割算法及区域生长算法的优缺点,针对遥感图像分割计算量大和区域生长遥感图像分割算法中合并策略、尺度选取的问题展开了讨论。针对遥感图像数据量大和噪
无论是在研究领域还是在商业化的系统中,R-Tree都是应用最为广泛的空间索引之一,它是地理信息系统中相当核心的一个研究方向。自1984年Guttman提出R-Tree以来,有大量针对其不足
随着电子商务、电子政务的飞速发展,网上办公愈来愈普遍,各个公司组织内部及之间需要频繁传递电子文件,特别是一些重要敏感度高的文件和签章,更需要严格的保护。对安全、高效的电
随着Internet的迅速发展,电子邮件逐渐成为信息交流的主要媒介之一,而近年来,垃圾邮件的泛滥愈演愈烈,如何有效地治理它已成为棘手的问题。本文提出一种可信的反垃圾邮件网格