借助网络信息的汉英实体翻译技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：hahaha123789

【摘要】

：

命名实体翻译是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。同时，随着互联网的发展，网络资源日益丰富，如何将海量的网络资源用于命名实体翻译任务，以提高实体

【作者】

：

杨帆

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2009年期

【关键词】

：

网络信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体翻译是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。同时，随着互联网的发展，网络资源日益丰富，如何将海量的网络资源用于命名实体翻译任务，以提高实体翻译的性能，成为了一个研究热点。　　本文设计了一个借助网络信息进行命名实体翻译的整体框架，并重点研究了借助网络信息的汉英反向音译以及基于网络挖掘的汉英机构名翻译的方法。主要工作归纳如下：　　 [1]借助网络信息进行汉英命名实体翻译的系统框架　　由于不同类别的命名实体具有其自身的翻译特点和规律，本文通过分析人名、地名和机构名的翻译特点和难点以及网络挖掘的基本方法，设计了利用网络信息进行汉英命名实体翻译的系统框架。　　 [2]提出了借助网络信息辅助汉英反向音译的方法　　音译是根据发音的相似性进行翻译的方法。使用统计模型进行汉英反向音译存在两个主要问题，一是反向音译过程难以恢复正向音译造成的信息损失。二是音译具有一定的习惯性，当出现音译标准不一致时，统计模型难以选择合适的翻译方案。针对以上两个问题，本文提出了一种借助网络信息辅助汉英反向音译的方法。首先构造一个从汉语拼音到英文音节的统计音译模型，对输入的汉语音译名产生若干最优翻译候选；然后借助一个海量英文单词表，将翻译候选修正为与之最相近的英文单词；最后，将修正后的翻译候选直接作为查询检索英文单语网页，通过在搜索引擎返回的网页片段中进行英文命名实体识别，并借助网页计数等特征，对翻译候选进行重排序。实验结果表明，相对于传统的统计音译模型，本文提出的方法可以将汉英反向音译的精确率提高38.81％。　　 [3]提出了基于网络挖掘的汉英机构名翻译的方法　　机构名是组成结构最复杂、变化形式最多的一类命名实体，使用统计模型进行机构名翻译存在词语选择、词序安排等诸多困难，性能较低。本文提出一种基于网络挖掘的汉英机构名翻译方法，直接从汉英混合网页中抽取中文机构名的英文翻译。该方法主要解决两个问题，其一是如何有效地检索到英文翻译存在的网页；其二是如何将英文翻译抽取出来。首先使用基于语块划分的分词方法对中文机构名进行分词，从而有效地避免未登录词的干扰，提高机构名分词的正确率；然后使用一种启发式方法从中文机构名分词序列中选择若干词语翻译为英文，并加入到查询中以检索汉英混合语言网页；最后，使用非对称对齐方法将中文机构名与返回的网页片段中的所有英文单词序列进行对齐，抽取出最优片段作为英文翻译。实验证明，相对于传统的统计翻译模型，基于网络挖掘的方法可以将机构名翻译的正确率提高30.42％。

其他文献

基于PCE的下一代光网络路由技术研究

随着下一代光网络规模的不断扩大,网络拓扑越来越复杂,路由计算也越来越复杂,原有的路由技术已不能满足复杂的路由计算要求。为了解决这个问题,IETF (互联网工程任务组) PCE(

学位

下一代光网络路由技术路径计算单元PCE通信协议

汉语感叹句和疑问句的生成方法研究

传统的语音合成多侧重于单一朗读语气的研究。为了进一步提高语音合成系统的表现力，扩展语音合成系统的应用范围。本文针对自然口语中常见的疑问句和感叹句进行了深入的研究，并

学位

语音合成

基于UML活动图的业务流程测试研究

测试用例的设计与生成是软件测试的重点和难点之所在，其本质是如何依据一种以适当方式描述的软件规格说明来设计和生成有效的测试用例。近年来，随着面向对象技术的成熟和广泛应

学位

软件测试业务流程测试UML活动图反蚁群Agent算法

遗传算法在物流配送中的应用研究

在当今全球经济迅猛发展的环境下，物流的快速发展成为必然。物流是社会生产发展过程中不可缺少的前提条件，是实现商品价值的重要保证，大力发展物流业可以降低物流成本，从而实现现

学位

遗传算法物流配送车辆调配中心选址

基于连续视频图像捕获的二维条码解码技术研究与应用

二维条码技术是自动识别技术中的重要组成部分，是在一维条码无法满足信息技术发展的需求下提出的，它完成了条码技术从对“物品”进行标记描述工具，到对“物品”信息存储和识别的

学位

二维条码二维条码解码技术解码技术连续视频图像捕获法连续视频图像捕获法图像预处理图像预处理

面向业务的多层网络区分生存性研究

自动交换光网络(ASON,Automatic Switched Optical Network)技术推动了下一代光网络智能化发展,同时也为传统的传送网络向业务网络的演进创造了条件。多业务驱动也成为通信网

学位

自动交换光网络区分业务多层网络生存性IP over WDM

基于支持向量机的大规模数据分类研究及应用

支持向量机(SVM)作为一种新兴的基于统计学习理论的分类算法，具有坚实的理论基础，巧妙的算法实现和卓越的性能。其核心思想是将一个复杂的分类任务通过核函数映射使之转化成一

学位

数据挖掘支持向量机大规模数据分类特征选取稀疏数据稠密数据

一种支持相似虚拟机快速启动的方法及其在KVM上的实现

有这么一种常见的虚拟化应用：同一虚拟化平台上运行着多个虚拟机，并且这些虚拟机上都运行着相同的操作系统，运行着可能相同或者不同的应用程序。针对这种虚拟机运行背景的相似性

学位

计算机网络多虚拟机网络切换器微机启动

M2M业务支撑平台WEB管理系统的设计与实现

网络技术飞速发展，随之而来的网络增值业务也不断涌现。然而，这些增值业务所采用的开发标准与规范往往不尽相同。这样的结果是导致网络增值业务种类繁多，fH是却没有统一的接口标

学位

网络增值业务网络增值业务M2M支撑平台M2M支撑平台系统设计系统设计

基于海量互联网网页文本的中文概念知识库构建算法研究及应用

随着互联网和知识经济的发展，越来越多记载着人类各种知识的文本出现在计算机和互联网上，网络上的海量信息和知识为人们的科研、学习、工作和生活提供了丰富的资源，极大地推动了

学位

概念知识库概念知识库组合词组合词认知模式认知模式文本挖掘文本挖掘网页文本网页文本自然语言处理自然语言处理系统设计系统设计

借助网络信息的汉英实体翻译技术研究

与本文相关的学术论文