论文部分内容阅读
平行语料库作为语料库的一种,在计算语言学和自然语言处理研究领域应用最多、最广泛。然而,当前的平行语料大部分来源于会议记录、法律文本等,真正可以利用的具有较高对齐质量的平行语料资源是非常有限的。虽然也有不少学者研究如何从网络上自动获取平行语料,但是由于网络信息格式的多样性和内容的随意性,实际中往往很难获得足够规模的、高质量的平行语料,使得现有平行语料库在规模、时效性和领域平衡性方面还不能满足处理真实文本的需要。针对平行语料库上述的不足,计算语言学和自然语言处理学界开展了可比较语料库的研究。与平行语料相比,可比较语料资源丰富,不存在平行语料在规模、时效性方面的限制。而在国内,尚没有公开发表的关于可比较语料库构建工作的文献。本文以微软公司资助项目—Mining English-Chinese named entity pairs based on multi-featureintegrated models from comparable corpora为背景,旨在构建中英可比较语料库,探索和解决中英可比较语料库构建过程中出现的各种问题。在研究分析现有相关文献的基础上,本文提出了可比较语料库的构建方法,该方法分为如下两部分:(1)采用增量搜集技术获取并及时更新网页文档集合,作为构建可比较语料库的资源,使得可比较语料库具有较好的时效性。这也是本文的创新点之一,不同于以往语料库的构建工作,本文考虑了网页文档在时间维度上的动态更新,及时更新可比较语料库,从而使得可比较语料库具有较好的时效性。(2)采用跨语言信息检索技术(本文为中-英),从目标语言文档集合中检索与源语言文档相关的目标语言文档,创建相关文档池,经过进一步的对齐处理建立源语言文档和目标语言文档之间的映射关系,最终构建可比较语料库。并对其中的关键技术—未登录词翻译问题进行了研究,提出了有效方法。该方法首先对未登录词的翻译特征进行分析,即意译未登录词、音译未登录词和合译未登录词的判别,并将判别结果应用于后续的候选翻译词抽取和选择。这样做的优点在于应用翻译模型和音译模型时,可以根据未登录词的翻译特征,赋予各模型不同的权重,从而使处理结果更准确。实验结果表明,本文提出的方法用于构建可比较语料库取得了较好的效果。