论文部分内容阅读
在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等。对于实际应用来说,句子级和词汇级的双语对齐语料尤为有用。基于实例的机器翻译、知识获取以及跨语言信息检索等技术的性能很大程度上依赖于双语语料库规模和质量,而句子级的双语语料和单词级对齐的双语语料的质量和数量直接决定了双语语料库的质量。所以句子级的双语对齐技术和词汇级的双语对齐技术在很大程度上影响以上应用的最终性能。本文以国家863基金项目《基于语义的跨语言信息检索平台》为依托,以生物医学领域跨语言信息检索的查询翻译为应用背景,以构建生物医学文献双语术语词典为目的。主要工作分为双语句子对齐和双语术语抽取两个步骤。针对以上两个步骤,本文对双语对齐技术进行了详尽的考察和研究,取得了以下研究成果:(1)利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,根据锚信息将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的对齐结果。(2)将迁移学习思想和分类思想用于汉英句子对齐任务中。将句子对齐任务看成一个对齐模式的分类问题,充分利用生物医学领域双语摘要的锚信息,使得句子对齐准确率得到了一定提高;同时,在模型训练过程中,我们引入了迁移学习的思想,对模型进行协同训练,使得模型在测试语料上表现的性能更优。(3)通过对生物医学语料进行统计分析,使用迭代重估算法对生物医学句对进行基于统计的双语术语抽取。根据领域特点,在有限的双语资源可利用的情况下,限定双语术语对的长度得到了较高的召回率。