面向英汉机器翻译的树库建设

被引量 : 3次 | 上传用户:liongliong439
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译研究在过去几十年的时间内取得了很大进步,在系统研发和理论创新两方面均有很大进展,某些机器翻译系统甚至开始步入人们的日常生活,比如Google的网上翻译。然而,机器翻译的发展依然受到语义问题的制约和束缚。这些语义问题主要是指歧义,包括词的多义、短语结构多义等等现象。由于语义研究的复杂性,因而学术界纷纷引入其它的方法避开语义计算,比如利用双语对齐语料确定语言之间的对应翻译关系。双语对齐是比较流行并且比较有效的双语翻译知识提取方式,主要包括词对齐和短语对齐。这种处理方式的主要特点是速度快而且比较有效。由于语料翻译多采用意译法,这使得双语文本经常出现段落错位和漏译。同时,由于在翻译中经常出现翻译歧义、位置歧义、高低频串、双语词典覆盖率和未登录词等等因素的影响,使得双语词对知识和短语对知识比较粗糙,并且含有一定错误,出现很多不能找到对译的成分以及难以提取到固定翻译。考虑到机器翻译的语义问题和对齐语料的优缺点,我们开发了一个面向英汉机器翻译的树库资源。该树库采用机器预处理和人工加工相结合的方法进行建设。其主要特点是,对所有的英语句子进行完全句法分析,同时对其句法分析形式进行了部分改造,将句法树的深度进行“压缩”并作部分改变,使其更符合英汉机器翻译的特点。另外,对英语的单词都依据一定的原则进行翻译,然后将译文逐层上传,层层累积,在根节点得到整句汉语译文。由于将汉语译文附着在对应的英语句法树的节点上,这就使得两种语言的两颗句法树合二为一,被纳入到了同一种语法体系之下。同时从语料中人工标注大量的英汉固定翻译模板,包括连续模板和非连续模板,这些模板有助于减轻句法分析难度和提高译文质量。实验表明,使用该方法构造的树库的翻译质量是可靠的,在BLEU和NIST测试方面与不受限制的专家译文不相上下。本论文完成的主要工作是:第一,针对现有的英汉机器翻译中使用的资源的种种不足,提出了一种新的英汉语言资源标注形式。这种新的形式可以将英汉两种语言的语法成分置于同一种语法体系之内,在英语和汉语之间进行平衡和调整。并用这种标注形式标注了三万句的英汉翻译树库。该树库包含丰富的语言信息和翻译信息,包括词性标注和单词翻译、短语翻译、句子翻译和大量的英汉翻译模板。这种标注形式在一定程度上避免了当前资源建设中的种种不足。第二,构造了一个界面友好的树库标注工具,可以用来减轻标注人员压力。(工具代码将完全公开)。第三,完成了一份较详细的标注规范以指导树库标注。
其他文献
高速摄像技术在现代社会中的应用范围逐渐扩大,其能够将高速运动变化过程中的空间信息和时间紧密联系在一起,从而对图像进行记录。在数十年的发展过程中,高速摄像技术已经从
以双酚A型环氧树脂为基体,3,3’-二乙基-4,4’-二氨基二苯甲烷(DEDDM)为固化剂,热塑性树脂为增韧剂,采用中温固化热熔胶膜法制备环氧树脂预浸料,并以玻璃纤维为增强体制备玻璃纤维/环
海棠是我国的传统观赏花木,在世界园林中占有重要的地位。长期以来对海棠的研究工作停留在经典植物分类学和园艺学研究方面,而对观赏海棠品种资源缺乏系统的调查和整理研究。
本研究是利用高能作物甜高粱秸秆中丰富的糖分为原料生产酒精,从固态发酵的条件优化、发酵方式以及发酵渣的利用方面进行了研究,为甜高粱秸秆固态发酵的工业化生产奠定了基础。
孔子是世界上最知名的哲学家之一。中国儒家学派的创始人。在两干多年漫长的历史长河中,儒家文化逐渐成为中国的正统文化,也是整个东方文化的基石。山东曲阜的孔庙、孔府、孔林
2015年5月至11月,国家林业局将分别与江西、山东、广西、浙江、福建等省区人民政府联合举办五个以林产品交易为主的国家级林业重点展会。这是本刊记者从4月23日国家林业局和
针对套圈生产中表面经常发现的准圆形或长圆形黑点状缺陷进行宏观检查和金相分析,在材料内部没有检测到相应的组织缺陷,确定这些缺陷为套圈表面的小孔腐蚀。介绍了小孔腐蚀的
本研究旨在探讨饲粮中添加不同水平大豆异黄酮(ISO)对固始鸡小肠形态结构的影响。将80只1日龄固始鸡雏鸡随机分成4组:对照组(饲喂基础饲粮)、3 mg/kg大豆异黄酮组、6 mg/kg大
针对渗碳轴承钢中化学元素对渗碳零件心部硬度的影响情况,采用灰色系统理论和"曲线趋势图"进行分析,找出影响铁路轴承套圈心部硬度的主要元素及其关系,通过控制钢材中各化学
随着通信网络的迅速发展,各种网络服务广泛应用在日常工作与生活当中,而利用电子邮件进行信息交流,已经成为人们联系沟通的重要手段,与此同时,越来越重要的角色也使得电子邮件的安