英汉机器翻译模板自动抽取算法的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:m104129495
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然机器翻译已经有了50年左右的历史,但目前它的研究仍然没有取得实质性的突破。机器翻译的方法主要包括基于规则、基于例子和基于统计的三种方法,但它们都有各自的局限性,而基于模板的机器翻译(简称TBMT)在某种程度上可以综合它们的优点,所以引起了国内外学术界一定的关注。但TBMT需要大规模的翻译模板才可以获得较高的正确率,因此如何解决构建大规模模板库的问题就显得非常重要,本文的目的就是对怎样从双语平行语料库中自动抽取翻译模板的算法进行研究。 本文首先概括了机器翻译的历史、发展及主要的方法策略,同时对基于模板的机器翻译作了简单介绍。然后以TranslationTemplateLearner(TTL)算法为原型,提出了一种改进的英汉翻译模板提取算法——基于句子比较的翻译模板抽取(简称ATTEBSC)算法。TTL算法最初被应用于英语——土耳其语模板自动抽取的研究,而这里ATTEBSC算法主要被应用于自动抽取英汉翻译模板。ATTEBSC算法的基本思想是通过句子的比较来获取翻译模板,既不需要双语词典,也不需要进行句法分析,它的实质是先利用一种基于向量空间模型的方法对语料库中的句子进行聚类,把具有相同或相似结构的句子合成一类;再利用计算最长公共子序列(LCS)的方法把同一类中的句子按照设定的阈值进行过滤并把相应的句子对改写成TTL算法所要求的格式,最后通过这种格式分析对应变量或常量实现模板的自动抽取。实验表明,ATTEBSC算法能够学出许多有价值的模板、效果良好。虽然它也会生成大量的无用模板,但是它具有容易计算和资源需求少的优点,而且能够方便地通过人工干预进一步提高模板的准确率,不失为一种有效的翻译模板提取算法。 此外,本文还实现了一个英汉翻译模板抽取系统,其核心是将与模板抽取相关的关键算法封装成可复用的组件,主要的算法包括:最大逆向匹配、最大概率法分词、句子聚类、LCS计算和ATTEBSC等。同时,该系统也集成了一些必要的相关辅助功能,以方便上述各种算法的使用。
其他文献
本文首先综述了IP城域网的一系列关键技术,主要是IP城域网的定义、结构、路由策略、MPLSVPN技术和IP地址的管理,并扼要阐述建设IP城域网的一般原则和主要考虑的问题。其次,本文
本文首先进行Web移植理论的研究;提出了面向模式思路解决数据访问层移植问题,以集成的观点进行业务逻辑层移植的辅助,通过静态走查工具实现页面表示层移植后的浏览器兼容性问题,
政府信息门户是实现电子政务的一种基本形式。电子政务是要建立一个能够覆盖各级政府部门、各类业务和应用,跨越各个层次,紧密结合、集约管理的开放式电子化服务环境。政府信息
身份认证协议是密码学协议研究的重要内容,身份认证对于保障信息只被合法授权用户访问起到至关重要的作用,它是系统的第一道防线,因而加强对身份认证协议的研究是非常必要的
随着用户应用需求和技术创新的推动,以GSM/CDMA等为代表的主要提供语音电路交换的2G移动通信系统正在向可以提供数据、语音和多媒体服务的3G、4G网络不断演进,移动网络体系结构
随着计算机和网络技术的飞速发展,网络应用范围的不断扩大,网络给人们的日常工作和生活带来了巨大的便利,网络的地位越来越重要,但与此同时,也给人们带来了越来越多的安全性问题。
目前,通信网和Internet还是相对分离的两个网络,虽然采用SIP、H.323、MGCP、MEGCO/H.248,软交换体系结构在传输层和控制层解决了电信网和IP网络的互通,但是如何在业务层使电信业
公路施工是包括摊铺机、压路机、转运车在内的多种大型施工机械协作共同完成的过程。保证各施工机械能够在现场恶劣的情况下能正常完成施工过程是相当重要的。在“转运—摊铺
无线传感器网络(WSN)作为物联网中重要的分支和底层网络的关键技术,引起了学术界和工业界的重视。近年来IPv6协议在物联网中的应用受到各界越来越多的关注,使用IPv6技术可获
数据库复制是分布式环境中的一项关键技术,同时由于数据库异构现象越来越普遍,研究异构数据库复制无论在理论还是实际上都具有非常重要的意义。 针对目前具体的异构数据库复