基于部分假设共享的多模型协同解码研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:waixiao032124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,统计机器翻译取得了很大的进展:从基于词的模型,到基于短语的模型,再到各种句法的模型。虽然句法的模型有诸多优点,如可以处理长距离调序等,但它们也并不是完美的,都存在各自的瑕疵,如层次短语模型在解码过程中可能会大量使用“粘合规则”,MEBTG(基于最大熵的括号转录语法)模型在解码时仍然采取严格的字符串匹配等。   对于一些较大语种之间统计机器翻译,如英语和汉语,英语和阿拉伯语等,一些大学,科研机构等已经对其进行了深入的研究,但对国内的一些小语种和汉语之间的统计机器翻译很少有人对其进行深入的研究,比如维吾尔语和汉语之间的翻译。   本文的主要工作和取得的主要成果如下:   1.提出并实现了基于部分翻译假设共享的多模型协同解码系统,系统中的每个成员模型都可以共享其它成员模型的搜索空间,从而使得整个模型的解码空间得到极大的扩展。不同成员模型生成的部分翻译假设采取竞争的形式参与解码,使整个模型的搜索空间限制在较优的搜索空间范围内,这个较优的空间可能来自各个成员模型搜索空间的一部分。整个模型吸收了各个成员模型的优点,去除它们的缺点,例如,可以用最大熵调序模型取代层次短语模型和基于树模型中的粘合规则,而它们的联合同时使整个模型具备了泛化能力,而且使得生成的翻译假设更符合语言学知识。   2.对维汉翻译质量有影响的因素做了深入的探讨,分析,提出并验证了一些解决方案,它们包括汉维/维汉翻译中的词对齐问题,维汉翻译中的OOV问题,汉维翻译中的依存关系问题等。   3.使用多线程,负载均衡等技术设计并实现了在线多语言机器翻译框架。
其他文献
攻击者可通过渗透网络中的某台主机并以其为跳板,逐步渗透,最终实现损害网络中重要资产的目的。到达攻击目标的所有可能的攻击路径形成了攻击图。研究攻击图对网络防护具有重要
随着计算系统资源的不断增加和规模的不断扩展,虚拟化技术作为一种新型的计算模式已成为了行业内的研究热点。虚拟技术是云计算研究中的一项关键技术,与传统操作系统一样,出现的
Web系统已成为当前主流的互联网应用模式,其性能能否满足服务质量约束(ServiceLevelAgreement,SLA)的需求至关重要,否则将导致客户流失,收益受损等严重后果。基于性能模型的保障
随着信息技术的快速发展,软件应用范围越来越广。但同时软件开发也面临着越来越多新的挑战。如何面对快速变化的需求、如何用更短的时间和更少的成本开发软件和如何面对同行业
随着社会、经济和移动互联网的迅速发展,商业、家庭、公共安全等领域的无线业务对频谱资源的需求越来越迫切。频谱紧缺的问题已经成为制约无线通信发展的瓶颈。认知无线电网
当今社会机器人技术正逐步渗透到了人类生产和生活的各个领域,并已经成为21世纪最热门的研究领域之一。目标检测、定位与跟踪是机器人实现更高一级的智能行为必须具备的基本能
数据管理技术是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。随着数据形式的多样化以及应用需求的多元化,数据管理技术面临了新的困难和挑战。近
多智能体系统(Multi-Agent System,简称MAS)作为分布式人工智能的重要研究领域,从20世纪90年代起得到了快速的发展,并在诸多行业有着重要的应用。同时,越来越多的多智能体系统提出
大量的大规模密集型数据需要存储在多个服务器中,而应用越来越广泛的云计算环境很好地解决了大规模密集型数据在分配过程中遇到的规模性问题。随着云计算技术的发展,云环境下的
与LTL、CTL以及PDL等较简单的时序与模态逻辑相比,μ-演算由于含有不动点算子,拥有非常强大的表达能力,因而付出的代价是其可满足性的判定、模型的构造以及对应公理系统的完备性