论文部分内容阅读
双语语料库是存放两种语意对齐的语料资源和信息的仓库,是机器翻译和多语言处理的重要资源,被广泛的应用于机器翻译、机助人译、翻译知识的抽取、词义排歧、跨语言信息检索等领域。其中,对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。双语文本级句对齐包含了段落对齐和句子对齐,二者对齐原理类似。基于汉英双语的实际情况,本文主要从对齐的准确性和速度方面,在兼顾准确率和召回率的前提下,提高文本对齐的速度。首先,根据本文提出的锚点对齐算法,将文本划分为文本块。该方法利用文本中的命名实体如人名、地名、组织机构名和数字类、时间类、日期类等这些特殊信息,利用动态规划算法将文本划分为几个片段。实验证明,该锚点对齐算法在段落对齐和句对齐中准确率可以达到98%。然后,在文本段落对齐实验中,采用基于长度和均等权重的词典对齐结合的对齐方法,获得了良好的对齐效果,准确率达到93.4%。添加锚点对齐后的段落对齐,召回率增加了,对齐速度是以前的2.5倍。在文本句子对齐实验中,分别进行了直接句对齐和先段落对齐后句对齐的实验,实验结果表明含有段落信息的文本句对齐要比直接进行句对齐效果好。直接句子对齐不利用段落信息,其中基于长度和TF-IDF权重的词典对齐方法最好,准确率达到93.6%,添加锚点对齐后,准确率一致的情况下,召回率提高了0,5个百分点,运行速度提高了3.4倍。含段落信息的文本句对齐中,首先利用基于长度和词典结合的方法进行段落对齐,然后利用直接句子对齐的方法,准确率达到了92.8%,在整个对齐过程中,添加锚点对齐后,准确率一致的情况下,召回率提高了0.5个百分点。本文的主要工作分为两部分:一是提出基于锚点对齐方法,将待对齐的文本划分为小的片段,然后在片段内进行段落对齐或句子对齐,实验表明,该方法准确率达到98%。二是结合长度对齐方法和双语词典对齐方法的特点,将二者融合到文本级段落对齐和句子对齐中,总结出了适用于段落对齐和句子对齐的方法。