可比较语料库的研究与构建

被引量 : 0次 | 上传用户:jljc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库作为语料库的一种,在计算语言学和自然语言处理研究领域应用最多、最广泛。然而,当前的平行语料大部分来源于会议记录、法律文本等,真正可以利用的具有较高对齐质量的平行语料资源是非常有限的。虽然也有不少学者研究如何从网络上自动获取平行语料,但是由于网络信息格式的多样性和内容的随意性,实际中往往很难获得足够规模的、高质量的平行语料,使得现有平行语料库在规模、时效性和领域平衡性方面还不能满足处理真实文本的需要。针对平行语料库上述的不足,计算语言学和自然语言处理学界开展了可比较语料库的研究。与平行语料相比,可比较语料资源丰富,不存在平行语料在规模、时效性方面的限制。而在国内,尚没有公开发表的关于可比较语料库构建工作的文献。本文以微软公司资助项目—Mining English-Chinese named entity pairs based on multi-featureintegrated models from comparable corpora为背景,旨在构建中英可比较语料库,探索和解决中英可比较语料库构建过程中出现的各种问题。在研究分析现有相关文献的基础上,本文提出了可比较语料库的构建方法,该方法分为如下两部分:(1)采用增量搜集技术获取并及时更新网页文档集合,作为构建可比较语料库的资源,使得可比较语料库具有较好的时效性。这也是本文的创新点之一,不同于以往语料库的构建工作,本文考虑了网页文档在时间维度上的动态更新,及时更新可比较语料库,从而使得可比较语料库具有较好的时效性。(2)采用跨语言信息检索技术(本文为中-英),从目标语言文档集合中检索与源语言文档相关的目标语言文档,创建相关文档池,经过进一步的对齐处理建立源语言文档和目标语言文档之间的映射关系,最终构建可比较语料库。并对其中的关键技术—未登录词翻译问题进行了研究,提出了有效方法。该方法首先对未登录词的翻译特征进行分析,即意译未登录词、音译未登录词和合译未登录词的判别,并将判别结果应用于后续的候选翻译词抽取和选择。这样做的优点在于应用翻译模型和音译模型时,可以根据未登录词的翻译特征,赋予各模型不同的权重,从而使处理结果更准确。实验结果表明,本文提出的方法用于构建可比较语料库取得了较好的效果。
其他文献
目的探讨精细化管理在手术室骨科外来器械管理中的应用。方法回顾性选择2017年1~6月期间使用外来手术器械进行手术的670例患者作为实施前组,选择2017年7月~2018年3月期间使用
小学的道德与法制课程是一门以德育为基础内容的教育学科,该课程的开展十分注重教育的"生活化"。而小学生也正处于道德与法制素养的萌发时期,也是培养小学生得到与法制教育的
随着城市交通压力的不断增加,智能交通系统受到了人们越来越多的重视。其中车牌识别系统是智能交通系统中的重要组成部分,有着十分广泛的应用。本文研究了基于视频输入的嵌入
冯延巳作为五代词人中的一位代表性人物,具有词人与政治人物的双重身份。作为一位词人,其词在五代词的演进过程中地位独特,对北宋初年词人的影响也较大。作为一位政治人物,他
采用错配PCR-RFLP法检测胰岛素样生长因子2基因(IGF2)内含子3的G3072A位点变异对长×大杂交猪肌肉生长和脂肪沉积的影响,并采用实时荧光定量PCR法分析该变异对出生后的长&#
基于从天然活性物质中开发的农药具有高效、抗性发展缓慢和环境相容好等优点,为了开发新的农药品种,本文以生物活性的苯并[c]菲啶型生物碱和橙酮两类天然产物为先导化合物,对
<正>格鲁吉亚自2003年12月爆发“玫瑰革命”以来,一直在为加入北约进行着各种各样的努力。2006年,格鲁吉亚政府领导人也已为加入北约的“入约行动计划”(Membership Action P
介绍了腈纶厂废水的主要来源和危害,并综述了几种高级氧化法在处理腈纶废水、丙烯腈废水中的研究进展,同时分析了高级氧化法处理腈纶厂废水的作用机理、优势和存在的问题,并
目的:研究慢阻肺合并肺部感染采用盐酸氨溴索治疗的临床疗效。方法:病例样本为2019年4月~2020年4月时间段我院收治的96例慢阻肺合并肺部感染患者,分组方式为随机数字表法,平
随着高职教育的不断发展,思想政治工作日益成为高职院校日常工作中的重要一环,富有实效的思想政治工作更是高职院校培养高素质高水平职业技能人才的重要保证。传统的高职院校思