中英平行短语依存树库的构建与应用研究

被引量 : 3次 | 上传用户:gorlsand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库是自然语言处理(NLP)和机器翻译(MT)研究和工程应用的重要基础资源,基于平行语料库的各种方法不仅能够改进机器翻译的质量,还可以加强机器辅助翻译中的人机交互。现有平行语料大多只实现了句子一级的对齐,只有部分词对齐或同现词串对齐。尽管网络文本挖掘技术的不断提高,平行语料的规模空前增长,基于实例和统计的机器翻译技术取得长足发展,很多复杂的语言现象和翻译难题还是急需含有语言学深加工的语料的支撑,以提高分析和翻译的准确性。平行对齐树库的构建和应用就是一个重要的方向。平行对齐树库可用于自动词对齐系统的训练和评测,翻译规则抽取,词义消歧,翻译词典抽取及跨语言文化研究等,尤其是能够在加强句法分析、抽取灵活而复杂的语言经验规则和翻译调序规则方面提高机器翻译系统性能。本文比较传统短语结构语法(PSG)和依存语法(DG)及现有相应树库资源,提出融合两者优势的短语依存语法(PDG)并设计相应短语依存树库(PDT)标注方案,构建包含中英单语PDT和实现节点对齐的大工中英平行短语依存树库(DUT-CEPDT). PDG放弃PSG的主谓二分法,采纳DG以谓词为中心的格语法;放弃DG强行单一中心语二分法,保留PSG的中间层级,保留并列的多中心结构,最大程度实现多语统一的分析方案;标注统一的基于语义的依存方向,在每个节点标注的依存关系类型包含句法功能和语义角色两个特征。翻译对齐的内容是对齐翻译过程,是从词、短语、句子到段落各层级彻底对齐。语料分别经过分词和词性标注之后,导入到可视化语言学树库编辑器,构建从段落到词的短语结构层级关系,同时标注各层结构的依存方向和类型。最后开发专门的PDT节点对齐编辑器,进行节点ID关联连结,实现中英文树库的节点对齐。已加完成2年中国政府工作报告和100份62届联合国大会决议的标注,中文169,360字,英文128,283词。依次进行的短语结构划分与结构类型标注、句法功能依存类型标注和节点对齐三项标注一致性实验表明设计的标注方案有较强的可操作性。DUT-CEPDT不仅用于抽取翻译对和翻译规则,用于基于树库句法分析的机器翻译系统研发,还用于复杂而精细的语言学研究,并研发语言和语言学教学辅助系统。
其他文献
近年来,利用解的稀疏性和其他内在结构成为众多计算和工程领域中共同关注的问题.稀疏的内含不仅是指“只有很少的非零分量”,它蕴含着“具有一种简单结构”.本文对机器学习中
抑郁症是常见的情感性精神障碍,是一种以显著而持久的心境低落为主要特征的综合征。临床表现为心情抑郁,思维迟钝,言语动作减少,并伴有食欲减退,睡眠障碍,疲劳,头痛,头晕,胸闷心慌,胃痛
随着改革开放的深入,中国对外投资规模不断扩大,投资领域和项目也不断增多。由于海外投资环境复杂,自身经验欠缺,与国内投资相比,不确定性更高,在实际操作中困难更大,这就使
随着我国法治进程的不断加快,高校法学专业教育的法学应用型人才的培养模式成为当前改革的方向,而合同法是法学专业课程体系中的重要核心内容,研究合同法教学中该模式的具体
稀土资源在当今国际社会扮演着重要的角色,也是当今国际政治、经济、军事和外交关注的焦点。“稀土案”争议的实质是国家利益之争,但一旦将国际贸易争端提交WTO争端解决机构,则
学生到课率是反映学生在课堂上的实然存在方式与应然存在方式之间关系的一个比率。学生到课率具有数量性、层次性、管窥性和发展性等特征。对西藏高校思想政治理论课的学生到
采用田间试验方法研究了N、P、K、Zn及Mn肥对高肥区夏玉米产量、植株性状及干物质积累的影响。结果表明,在该试验条件下,土壤N、P、K、Zn、Mn的贡献率分别为91.2%、100.3%、9
自2009年网点转型工作开展以来,网点经历了网点文明服务标准化、营销技能提升、服务品质提升、网点转型(第一次转型)、6S管理推广固化、网点标准化管理(二次转型)等主题类转
<正> 目前,普遍使用的落水救生产品是救生圈和救生衣。它们只适用于完全有准备的场合,不便于平时携带。因此,设计一种平时不离身,落水时能自动产生浮力的救生产品,将有
期刊