论文部分内容阅读
当今世界,跨语言的信息交流日益频繁,从而带来了机器翻译和跨语言信息检索等相关领域的研究高潮,其中,基于统计的分析方法以其卓越的性能,成为了这些领域的研究热点。然而,这些统计系统中所需的关键的平行语料库目前主要是基于书面材料的,缺乏大量的口语语料。因此,本文本致力于构建一个针对口语的汉英双语平行语料库,从而实现了一个汉英口语机器翻译系统,主要从以下几个方面展开工作:
在语料收集方面,本文从互联网上下载了大量的电影字幕,并对它们进行了文件格式选择、文件排重、语言选择、去噪等预处理工作,从而获得了基本的汉英双语字幕文件。
在语料加工方面,本文首先分析口语的基本语言现象,并以此为基础挖掘出它的对译特点,对字幕文件做句子对齐。由于仅利用句子内容信息难以解决一些复杂的对齐模式,本文利用字幕文件的时间信息,提出将时间和句子内容结合的对齐算法,进一步提句子对齐性能,F值达到98.3%,接近新闻语料等书面材料的句子对齐性能。而且这种结合时间信息的对齐方法能够较好的解决各种删除、插入问题,以及其他复杂的对齐情况。
在语料应用方面,本文以所收集的700万句对的汉英口语平行语料库为基础建立了实例资源库,进一步设计并实现了一个基于实例的口语机器翻译系统。该系统取得了较好的翻译性能,验证了所构建语料库的合理性和有效性。