面向生物医学领域的双语对齐技术研究

被引量 : 0次 | 上传用户:yaonulio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等。对于实际应用来说,句子级和词汇级的双语对齐语料尤为有用。基于实例的机器翻译、知识获取以及跨语言信息检索等技术的性能很大程度上依赖于双语语料库规模和质量,而句子级的双语语料和单词级对齐的双语语料的质量和数量直接决定了双语语料库的质量。所以句子级的双语对齐技术和词汇级的双语对齐技术在很大程度上影响以上应用的最终性能。本文以国家863基金项目《基于语义的跨语言信息检索平台》为依托,以生物医学领域跨语言信息检索的查询翻译为应用背景,以构建生物医学文献双语术语词典为目的。主要工作分为双语句子对齐和双语术语抽取两个步骤。针对以上两个步骤,本文对双语对齐技术进行了详尽的考察和研究,取得了以下研究成果:(1)利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,根据锚信息将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的对齐结果。(2)将迁移学习思想和分类思想用于汉英句子对齐任务中。将句子对齐任务看成一个对齐模式的分类问题,充分利用生物医学领域双语摘要的锚信息,使得句子对齐准确率得到了一定提高;同时,在模型训练过程中,我们引入了迁移学习的思想,对模型进行协同训练,使得模型在测试语料上表现的性能更优。(3)通过对生物医学语料进行统计分析,使用迭代重估算法对生物医学句对进行基于统计的双语术语抽取。根据领域特点,在有限的双语资源可利用的情况下,限定双语术语对的长度得到了较高的召回率。
其他文献
魏晋时期佛教般若学言意观,在对教义的理解上,在“言语道断-假言假象-忘象息言-求理象外”的体系建立上,在论述语言及其表述方式上,受到当时魏晋玄学思潮的直接影响。但佛教作为
华裔美国文学的研究热点通常集中在华裔美国人的文化身份以及与之相关的文化冲突方面,而对华裔作品本身的文化翻译属性论述不多,其中从离散视角切入的更寥寥无几。本文以三位
建筑物区分所有是现代民法上一项基本的不动产所有制形式。建筑物区分所有权法律关系按通说包含三种法律关系:对专有部分形成的专有权法律关系、对共有部分形成的共有权法律
自因特网产生以来,世界发生了巨大的变化。网络日渐深入我们的生活,深刻地改变着我们自身和周围的事物。信息网络技术的发展一方面使作品的传播变得更为方便、快捷,另一方面
存款保险制度的建立和完善,不仅在实践中较好地保护了存款人的利益,维护了金融体系的稳定,而且,在理论上,打破了贯彻已久的金融监管的“危机导向,事后补救”的轨迹,开始引导金融监管
魏晋学术值佛教勃兴而别开生面,魏晋玄学的“言意观”值竺道生而在根本方向上也得一大转关。由于佛教思想的影响,竺道生不仅把言提高到了与象并列的地位,从而使玄学的“得意忘言
在中国的纺织品工艺体系当中,丝织品一直以品种众多,制作工艺精美而成为古代工艺美术最重要的组成部分之一。缂丝是中国特有的丝织品工艺中的一种,历来有着“一寸缂丝一寸金
南极海冰占南半球冰雪区总面积的一半以上,是全球冰冻圈的重要组成部分,也是南极海洋环境的主要特征之一。鉴于南极海冰对全球大气环流和气候的重要影响,模拟和诊断南极海冰
目的:从唐宋金元时期的中医文献资料入手,搜集并整理有关医家对痹病的认识及治疗经验,并总结出这一时期应用虫类药治疗痹病的用药规律,为今后临床和科研提供较为明确的药物和
20世纪70年代中期,美国建筑师Richard Saul Wurman提出了“信息架构(IA)”,同时定义了信息建筑师的职责,当时并未引起人们的注意。直到20世纪90年代末期,由于Internet和Web的