基于短语的汉英统计机器翻译系统的设计与实现

被引量 : 0次 | 上传用户:kmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要介绍了统计机器翻译系统,并对当前统计机器翻译的主流方法——基于短语的统计机器翻译系统进行了探讨。首先向大家介绍了第一个基于短语的统计机器翻译系统——法老(Pharaoh),使大家对基于短语的统计机器翻译系统有了一个比较形象的认识。文中通过数据模型和图表样例介绍了基于短语的统计机器翻译系统的设计过程。对训练语料的对齐、短语抽取,以及对自动抽取的短语进行解码翻译和不同约束规则下的语序调整模型进行了说明介绍,对基于短语的统计机器翻译的具体实现做了充分的理论设计。通过建立数据模型,以及对系统模块的划分,利用国内国际上目前已有的一些资源,包括一些开放的源代码工具和一些可以公开获得的授权工具给出了基于短语的统计机器系统的整合实现。其中包括汉语分词工具、词语对齐模块、英文分词工具、语言模型工具等,并对训练语料库、词语对齐语料库、短语翻译概率表格式、语言模型格式、输入/输出文件格式和参考答案格式进行了定义。实现了各模块间的匹配,规范了数据在整个系统运行中的可操作性。评测环节从语料库中抽取出一部分作为开发集和测试集,利用现有的评测工具对集成的基于短语的统计机器翻译系统的准确度和BLEU值进行评测。设计了基于短语的邮政专用词条领域的汉英机器翻译系统——邮译通系统。综合以上的开发理念和利用现有的开源资源,同时辅以记忆库、词典等模块,我们开发了基于服务器-客户端模式的邮政专用词条汉英机器翻译系统软件——邮译通,该系统可为用户提供方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译。基于短语的统计机器翻译方法能够取得较好的翻译效果,值得做更深一步的研究。
其他文献
在经济全球化和地方化交互作用的背景下,广泛分布于世界各地的产业集群日益进入人们的视野,并成为各界关注的热点。产业集群在经济发展中扮演着越来越重要的角色,充分发挥着
本文通过浮选试验考察了十二胺(DDA)做捕收剂时十二烷基三甲氧基硅烷WD-10(C12H25Si(OCH3)3)、γ-氯丙基三乙氧基硅烷WD-30(Cl·C3H6·Si(OC2H5)3)对高岭石与一水硬铝石浮选行为的影
旅游产业是促进经济发展的重要动力,已成为世界上最大的就业部门和创汇产业。由于其广泛的产业关联和效应,被众多国家和省份确定为支柱产业。2001年江西省明确了以“红色摇篮
从2015年4月起,为贯彻落实中央和广东省委、省政府关于建设"21世纪海上丝绸之路"的工作部署,汕头市委、市政府高度重视,成立"海上丝绸之路"文物史迹申报世界文化遗产工作小组;汕
Web技术作为网络应用的一个革命性技术,使网络由特权走向了普通,成为越来越多人生活、工作中不可或缺的一部分。Web使信息的发布与共享更加方便快捷,动态Web技术将人们的生活
社会的发展和人类生活水平的不断提高,使人类对居住环境的要求也越来越高,因此中央空调系统的应用也越来越广泛。中央空调系统改善了人们的居住环境,但同时也消耗了大量的能
质量就是企业的生命,随着知识经济与管理创新的发展,市场竞争的日趋激烈,顾客对产品质量与服务提出了越来越苛刻的要求,如何更好的提高产品质量,达到顾客完全满意,决定着企业
人类最初的道德产于人口生产过程中,用来调节人口生产中的关系,决定了人口生产功能是道德的初始功能,进入阶级社会,物质生产功能全面生成。当今时代,生产功能是道德的基本功
随着电力网络变得日益庞大和复杂,电网的稳定可靠运行对配电自动化的精度和实时性提出了越来越高的要求。论文介绍了国内外电力系统中RTU的发展情况,结合当前嵌入式微处理器
随着各种现代开发技术的迅猛发展,虽然在一定程度上方便了人们对森林资源的开发与利用,但过度采伐的现象无疑将越来越严重,这必然将导致森林覆盖面积逐渐减少,对森林生态系统