大规模中英可比较语料库构建

被引量 : 0次 | 上传用户：mhappy

【摘要】

：

随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻

【作者】

：

赵莲

【发表日期】

：

2010年期

【关键词】

：

可比较语料库跨语言信息检索特征过滤关键词抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻译及辅助翻译等领域。与平行语料库相比,可比较语料库具有易于获取、资源丰富、内容新颖等特点。目前,基于可比较语料库的研究越来越广泛。本文以“基于可比较语料库的命名实体互译对挖掘”为背景,构建大规模的中英可比较语料库。通过分析现有可比较语料库构建方法中的不足,本文提出了基于跨语言信息检索与特征过滤相结合的方法,旨在获取大规模、高质量的中英可比较语料库。首先,抽取出源语言(中文)文档中的关键词,把关键词翻译成目标语言(英文)查询词,并根据一定的标准组合成查询语句；其次,利用信息检索系统检索与查询语句相关的目标语言文档,与源语言文档共同组成可比较文档对；最后,通过基于日期、相似度等特征的过滤方法对已生成的文档对进行过滤。本文的主要贡献包含以下三个方面：(1)在关键词抽取过程中,有效地结合了关键短语与关键单词。采用不同的方法构造候选短语及候选单词集合,并对其分别排序。同时,通过使用基于对称条件概率及局部最大值相结合的方法对分词结果进行修正,提高了关键词的抽取效果。(2)基于不同的特征设计了两种过滤方法,对可比较文档对进行过滤。第一种方法基于文档的发布日期及检索系统返回的查询语句与目标语言文档间的相似度进行过滤。在此基础上,第二种过滤方法综合考虑了可比较文档对中互译关键词个数及权重,引入了新特征KSD。实验表明,基于日期、相似度及KSD的过滤方法比第一种方法更为有效,对齐质量较高的文档对在可比较语料库中所占比例提高了17.6%。(3)基于五个相关性标准对可比较语料库的对齐质量进行了抽样分析。通过与其它可比较语料库构建方法对比,验证了本文中构建方法的有效性。

其他文献

体态律动应用在小学音乐教学中的有效策略探讨

体态律动教学模式打破了小学音乐教学以听觉为主的教学模式,通过对学生体态律动的引导和训练,使学生能够全身心的感受音乐的节奏、音调、情绪,提高音乐的欣赏能力和对音乐情

会议

体态律动小学音乐教育有效策略

杨格非与武汉四中

杨格非，一个英国传教士，为了在中国普及基督教教义，来到了中国，在中国度过了57年光阴的著名街头传教士。

期刊

基督教礼拜堂

Ⅱ型两级吸收式热泵循环及性能分析

本文分析讨论了Ⅱ型两级吸收式热泵的工作过程。提出了水/甘油Ⅱ型两级吸收式热泵循环,通过能量与物量衡算,建立了描述热泵性能的数学模型,对两种不同的Ⅱ型热泵循环性能进行

期刊

吸收式热泵热泵系统热泵性能性能分析

挠性寻北仪的关键技术研究

近年来,伴随着科学技术的进步,惯性导航技术不仅在军事上的应用越来越广泛,而且在大地测绘、隧道施工、矿藏勘探、海底救生等民用工程中也越来越显示出其广阔的应用前景。根

学位

惯性技术寻北仪CPLD力反馈FPGA

A省地税局税务管理信息化案例研究

税收环境是影响资本流动的最重要的因素之一,当前信息化背景下,面临社会、人口和经济各方面的挑战,税务机关应制定业务和IT战略目标及相应策略来应对日益严峻的挑战。因此,在

学位

信息化税务管理企业架构案例研究

奥镁公司隧道窑余热回收项目管理案例研究

随着我国节能减排政策的实施和能源市场价格的不断攀升,特别是当前全球经济危机所带来的影响,为适应这种严峻的外部环境,保持企业的市场竞争优势、维持企业的可持续发展,积极

学位

节能减排余热回收项目管理

基于猕猴桃的气象病害防治及栽培技术要点分析

猕猴桃属于藤本果树类植物，其果实营养丰富，口感极佳，并且具有降压助消化的贡献，所以深受人们的喜爱，在日常生活中，人们将猕猴桃作为一种营养品食用。有报道指出，猕猴桃的果汁可以对

期刊

猕猴桃果实猕猴桃栽培技术病害防治栽培技术要点

对我国青少年儿童体育健身评估的反思与展望

<正>青少年儿童体育健身的目的是为了增强体质,提高身体的免疫力,预防各种疾病的发生,促进身体和心理的健康发展。我国青少年儿童体育健身在不同时期具有不同的特点和表现形

期刊

体育健身青少年儿童体育运动项目反思与展望

金兰之契志同道合——略论萧友梅与陈洪的新音乐理想

萧友梅与陈洪两位音乐家在世的共事时间虽然并不长久,但两人在中国新音乐发展的理想与实践方面却有着极为一致的相同与相通。音乐理想的高度合拍,也正是陈洪能够与萧友梅默契

期刊

萧友梅陈洪新音乐

基于GIS的桥梁结构健康监测与管理系统

如果说20世纪是桥梁数量增加的高潮,21世纪必将是大跨桥梁建设的世纪。就中国来说,国道主干线同江至三亚就有5个跨海工程：渤海湾跨海工程、长江口跨海工程、杭州湾跨海工程、

学位

桥梁健康监测信息管理GISOracle Spatial

大规模中英可比较语料库构建

与本文相关的学术论文