Web双语平行语料自动获取及其在统计机器翻译中的应用

来源 :天津师范大学 | 被引量 : 6次 | 上传用户:thouden
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行语料库在自然语言处理领域有很多重要应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要基础资源。但是大规模双语平行语料库的获取并不容易,现有的平行语料库在规模、时效性和领域的平衡性等方面还不能满足处理真实文本的实际需要。随着互联网的普及和飞速发展,越来越多的双语网站被创建,越来越多的信息以多语言的形式发布,这就为双语和多语语料库的建设提供了很大的来源。一些研究者提出了基于Web的双语或多语平行语料库自动挖掘方法,为双语或多语平行语料库的自动构建提出了有效的解决途径。本文致力于构建一个基于Web的大规模双语平行语料库自动获取系统。取得主要成果有以下几方面:1.研究了双语混合网页的自动发现和获取互联网上的双语平行资源主要分为两类:一类是双语资源分布于两个网页间,两个网页用不同语言描述内容上是互译的,我们称之为双语平行网页;另一类是双语资源位于同一网页内,我们称之为双语混合网页。以往的系统主要是基于双语平行网页的,但是通过观察,我们发现Web上存在大量的双语混合网页,而且双语混合网页上的双语资源对照更为工整,翻译质量较高,是非常宝贵的双语资源来源。双语平行网页存在地址或结构上的相似性,处理方法已经很成熟,但这些方法并不适用于双语混合网页。候选双语混合网页分布通常不确定,缺乏一些常见的启发信息,获取更为困难。本文提出了一种基于尝试下载策略的自动发现双语混合网页的方法,运用该方法获取候选混合网站具有较高的正确率。2.研究了从双语混合网页中抽取平行句对的方法从双语混合网页中抽取平行句对的主要任务可以分成三部分:网页噪声过滤、双语混合网页确认和句子对齐。本文研究并实现了两种网页去噪声方法:专用的基于模板的方法和通用的基于Html标签树的方法。对于双语混合网页的确认本文分两步实验,分别是基于双语字符数的粗判别和基于词典的细判别。最后,本文采用基于混合信息的句子对齐方法将篇章级的双语平行文本转化成双语平行句对。本文解决了上述三个难点问题,实现了一个基于双语混合网页的平行语料自动挖掘系统。3.研究了Web双语平行语料在实际中的应用本文将从Web上获取的双语平行句对应用于统计机器翻译的模型训练,提出了句对质量排序和领域信息检索两种不同的应用策略将Web平行语料加载到训练集中,实验证明本文提出的两种策略可以提高翻译系统性能,在IWSLT评测任务中BLEU值可以提高2到5个百分点。
其他文献
第24届世界大学生冬季运动会于2月18日在冰城哈尔滨的盛大开幕,为寒冷的北国带来了一股强劲奔放的青春热浪。世界的眼光,迅速聚集到了这场体育盛会。黑龙江电视台作为主要转播
近几年国内广播电视业在数字化资料保存领域取得了长足的进步,许多同行业的资深人士就媒体资产的存储作了详尽而系统的阐述。本研究在这些理论基础的指引下,经过近两年从上海
建筑物在建造和使用过程中,其结构或构件受到多重因素的作用和影响,不能完全满足安全性、使用性、耐久性的要求,有时甚至会严重危及建筑结构的安全,往往需要采用补强加固的方
上海市松江区广播电视台于2005年进行了电视台数字化改造,涉及硬盘播出系统和非编网络系统两部分。本文对非编网络系统的建设进行了回顾。
期刊
“2012中国包装人才交流及产学研合作大会”于2012年7月3日至6日与“2012北京国际包装博览会”同期召开。
车辆起步先看胎油水充足方可开出场记得先登记一单三证携带齐行车路上要守纪
随着上海SMG的数字音频广播项目不断推进,在DAB系统上发展数据广播成为一个新的发展方向。本文结合DAB系统介绍了集成财经信息业务的过程,以及在实现过程中所考虑的一些技术
一、制动异响的主要原因(1)ABS制动系统产生响声。如果车辆配有ABS制动系统,制动响声就有可能是该系统产生的。因为每当道路情况较差时,ABS制动系统就会发挥作用,因此这种情况产生
目的:建立延胡索中5种主要生物碱的含量测定方法,并比较产地初加工方法和炮制方法对延胡索中生物碱含量的影响。方法:采用超声提取法提取样品,以高效液相色谱法测定收集自浙
浙贝母(Fritillaria thunbergii Miq),别名象贝、珠贝,为百合科(Liliaceae)贝母属多年生草本植物。本文以宁波市鄞州区章水镇种植的浙贝母种质资源为材料,采用常规调查法对其