面向生物医学领域的双语对齐技术研究

被引量 : 0次 | 上传用户：yaonulio

【摘要】

：

在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语语料库的对齐技

【作者】

：

陈相

【发表日期】

：

2009年期

【关键词】

：

跨语言信息检索双语语料双语对齐高斯混合模型迁移学习迭代重估算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等。对于实际应用来说,句子级和词汇级的双语对齐语料尤为有用。基于实例的机器翻译、知识获取以及跨语言信息检索等技术的性能很大程度上依赖于双语语料库规模和质量,而句子级的双语语料和单词级对齐的双语语料的质量和数量直接决定了双语语料库的质量。所以句子级的双语对齐技术和词汇级的双语对齐技术在很大程度上影响以上应用的最终性能。本文以国家863基金项目《基于语义的跨语言信息检索平台》为依托,以生物医学领域跨语言信息检索的查询翻译为应用背景,以构建生物医学文献双语术语词典为目的。主要工作分为双语句子对齐和双语术语抽取两个步骤。针对以上两个步骤,本文对双语对齐技术进行了详尽的考察和研究,取得了以下研究成果:(1)利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,根据锚信息将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的对齐结果。(2)将迁移学习思想和分类思想用于汉英句子对齐任务中。将句子对齐任务看成一个对齐模式的分类问题,充分利用生物医学领域双语摘要的锚信息,使得句子对齐准确率得到了一定提高;同时,在模型训练过程中,我们引入了迁移学习的思想,对模型进行协同训练,使得模型在测试语料上表现的性能更优。(3)通过对生物医学语料进行统计分析,使用迭代重估算法对生物医学句对进行基于统计的双语术语抽取。根据领域特点,在有限的双语资源可利用的情况下,限定双语术语对的长度得到了较高的召回率。

其他文献

论魏晋玄风下的中国佛教般若学言意观

魏晋时期佛教般若学言意观，在对教义的理解上，在“言语道断-假言假象-忘象息言-求理象外”的体系建立上，在论述语言及其表述方式上，受到当时魏晋玄学思潮的直接影响。但佛教作为

期刊

般若学言意魏晋

华裔美国作家离散视角下的文化翻译

华裔美国文学的研究热点通常集中在华裔美国人的文化身份以及与之相关的文化冲突方面,而对华裔作品本身的文化翻译属性论述不多,其中从离散视角切入的更寥寥无几。本文以三位

学位

华裔美国文学文化翻译离散视角杂合性

建筑物区分所有权人的共有权问题研究

建筑物区分所有是现代民法上一项基本的不动产所有制形式。建筑物区分所有权法律关系按通说包含三种法律关系:对专有部分形成的专有权法律关系、对共有部分形成的共有权法律

学位

建筑物区分所有权共有权共有部分

网络音乐侵权问题研究

自因特网产生以来,世界发生了巨大的变化。网络日渐深入我们的生活,深刻地改变着我们自身和周围的事物。信息网络技术的发展一方面使作品的传播变得更为方便、快捷,另一方面

学位

网络音乐侵权因特网服务提供商P2P技术维权措施

存款保险制度的建立与金融监管体制的完善

存款保险制度的建立和完善，不仅在实践中较好地保护了存款人的利益，维护了金融体系的稳定，而且，在理论上，打破了贯彻已久的金融监管的“危机导向，事后补救”的轨迹，开始引导金融监管

期刊

存款保险制度风险防范存款保险公司金融监管体制

竺道生对玄学“言意观”的解构与重建

魏晋学术值佛教勃兴而别开生面，魏晋玄学的“言意观”值竺道生而在根本方向上也得一大转关。由于佛教思想的影响，竺道生不仅把言提高到了与象并列的地位，从而使玄学的“得意忘言

期刊

竺道生佛学玄学言意观

宋代绘画对传统缂丝工艺的影响

在中国的纺织品工艺体系当中,丝织品一直以品种众多,制作工艺精美而成为古代工艺美术最重要的组成部分之一。缂丝是中国特有的丝织品工艺中的一种,历来有着“一寸缂丝一寸金

学位

缂丝宋代绘画花鸟画文化性

南极海冰对南半球大气环流和气候影响的数值模拟与诊断

南极海冰占南半球冰雪区总面积的一半以上,是全球冰冻圈的重要组成部分,也是南极海洋环境的主要特征之一。鉴于南极海冰对全球大气环流和气候的重要影响,模拟和诊断南极海冰

学位

南极海冰南极偶极子大气环流季风气候

唐宋金元时期应用虫类药物治疗痹病的文献研究

目的:从唐宋金元时期的中医文献资料入手,搜集并整理有关医家对痹病的认识及治疗经验,并总结出这一时期应用虫类药治疗痹病的用药规律,为今后临床和科研提供较为明确的药物和

学位

唐宋金元痹病虫类药文献研究

特色教育网站信息架构调查分析

20世纪70年代中期,美国建筑师Richard Saul Wurman提出了“信息架构(IA)”,同时定义了信息建筑师的职责,当时并未引起人们的注意。直到20世纪90年代末期,由于Internet和Web的

学位

信息架构IA教育网站调查

面向生物医学领域的双语对齐技术研究

与本文相关的学术论文