汉英口语平行语料库建设及其在基于实例机器翻译系统中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:libra_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,跨语言的信息交流日益频繁,从而带来了机器翻译和跨语言信息检索等相关领域的研究高潮,其中,基于统计的分析方法以其卓越的性能,成为了这些领域的研究热点。然而,这些统计系统中所需的关键的平行语料库目前主要是基于书面材料的,缺乏大量的口语语料。因此,本文本致力于构建一个针对口语的汉英双语平行语料库,从而实现了一个汉英口语机器翻译系统,主要从以下几个方面展开工作:   在语料收集方面,本文从互联网上下载了大量的电影字幕,并对它们进行了文件格式选择、文件排重、语言选择、去噪等预处理工作,从而获得了基本的汉英双语字幕文件。   在语料加工方面,本文首先分析口语的基本语言现象,并以此为基础挖掘出它的对译特点,对字幕文件做句子对齐。由于仅利用句子内容信息难以解决一些复杂的对齐模式,本文利用字幕文件的时间信息,提出将时间和句子内容结合的对齐算法,进一步提句子对齐性能,F值达到98.3%,接近新闻语料等书面材料的句子对齐性能。而且这种结合时间信息的对齐方法能够较好的解决各种删除、插入问题,以及其他复杂的对齐情况。   在语料应用方面,本文以所收集的700万句对的汉英口语平行语料库为基础建立了实例资源库,进一步设计并实现了一个基于实例的口语机器翻译系统。该系统取得了较好的翻译性能,验证了所构建语料库的合理性和有效性。
其他文献
由于每个人的指纹有着独一无二的特性,因此在生物特征识别领域,指纹识别一直都是最热门的主流技术之一,得到了业界的深入研究和广泛的应用。当前对指纹识别技术的研究主要集中在
肥胖基因编码的蛋白质(leptin)是反映体内脂肪含量和调节体重的重要信号因子,leptin能显著降低脂肪组织数量、促进青春期发育,对机体的免疫应答、繁殖功能、神经内分泌等功能具有
The wear resistance of iron (Fe)-matrix materials could be improved through the in situ formation of vanadium carbide particles (VCp) with high hardness. Howeve
酚氧化酶(ECl.10.3.1)能够催化单酚羟化成二酚(如多巴),并把二酚氧化成醌;醌在非酶促条件下形成最终的反应产物黑色素。酚氧化酶(phenoloxidase,PO)广泛存在于无脊椎动物和脊椎
随着实际应用需求的转变及相关基础科学理论的发展,水声信号处理正朝着浅海环境下宽带主动声纳信号处理的方向发展。在研究主动声纳宽带信号检测问题时,水声信道的时、空变化特
学位
This study investigated the susceptibility of X80 pipeline steel to hydrogen embrittlement given different hydrogen pre-charging times and hydrogen charging–re
随着网格技术的发展和数据传输需求的提高,网格中网络的传输能力逐步成为制约网格系统发展的主要瓶颈,而具有大容量带宽、可靠性传输等特性和较高性价比的光网络解决了此问题
本文利用基于热扩散法原理的ICT—2000TE树干蒸腾与环境因子自动监测系统,分别于2004年及2005年林木生长季节,研究了岷江上游亚高山冷杉林主要树种岷江冷杉、白桦和巴朗杜鹃的
光路快速建立是智能光网络的一项关键技术。本论文针对光路快速建立展开研究,提出了光路并行建立机制。   首先,本论文简要介绍了光路快速建立的研究背景和研究现状,然后分别
换流站是直流输电工程项目建设中的重要内容,站址的合理性对工程投资、经济效益具有重要的影响.在换流站建设中需要高精度的地形数据作为基础数据,相对于传统测绘方式,机载激