高精度中文机构名称与地址机译策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lazylazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文构建了以基于表示模式的高精度切分方法为核心的机构名称翻译系统,以及面向机器翻译的中文机构地址切分方法和基于地址单元的翻译机制相结合的中文机构地址翻译系统。具体地讲,本文从如下几个方面进行了研究:1.通过分析大量的数据实例,采用上下文无关文法抽象出符合机构名称构成特点的表示模式,并设计了一种基于表示模式的高精度切分方法,通过融合机构独立切分模式和地址独立切分模式得到的两个切分结果,消除机构名称中的歧义。2.深入研究了中文地址的构成特点,给出了一个合法的地址单元的定义,构建了符合中文地址构成特点的地址识别知识库,实现了一种面向机器翻译的机构地址切分方法。实验证明,针对机构地址翻译这一特定任务,该方法十分有效。3.中文机构地址被切分为地址单元序列之后,需要相应的翻译机制相支撑,才能完成机构地址汉英翻译任务。因此,本文定制了一种基于地址单元的翻译方法,实现了对不同类型的地址单元的翻译。通过CTR的自动获取,解决了广泛存在于基于规则的翻译系统中的规则冲突问题。4.本文设计并实现了中文机构名称翻译系统和中文机构地址翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,根据5分制评分标准,两个系统的翻译准确率分别为97.28%和91.26%,达到了实用化的翻译水平。
其他文献
当前城市交通系统的发展重点是如何在Internet环境下建立交通应用系统,实现广域范围内的资源共享与协同操作。并且使交城市交通系统提供的服务在面临各种事故、故障的情况下
数学形态学的基本思想是用具有一定形态的结构元素去量度和提取图像中的对应形状,以达到对图像分析和识别的目的。作为一种有效的图像处理非线性方法和理论,形态学方法在图像
说话人识别是语音信号处理的一项重要技术,是当前研究的热点之一。说话人识别是根据包含在语音中与说话人有关的信息来判定说话人的身份。本文从多个角度对说话人识别进行研
在我们日常生活中遇到的好多问题都是最优化问题,它能帮助我们从众多方案中,选出一个最好的方案。为了解决最优化问题,我们需要寻找更加高效的算法。作为一种最晚提出的群体
无线传感器网络(Wireless Sensor Network)和无线局域网(WLan)在近年来发展迅速。区别于传统有线连接,无线网络拥有节点组网灵活,节点可移动等优势,伴随而来的是网络中节点的
模型驱动架构(MDA)是由对象管理组织提出的一种新的软件体系架构,近几年来发展很快。用例图和顺序图都属于统一建模语言模型图。在软件开发中,用例图是用来描述系统的功能需
中文领域术语自动抽取是中文信息处理中的一项基础性课题,在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信
基于虹膜的生物特征识别技术具有识别精度高、无法伪造以及非侵犯性等优点,在门禁系统、海关出入境、机场和金融等许多领域中具有广泛的应用。现代虹膜识别系统为了适应各种复
宽带多媒体卫星通信系统是我国新一代多媒体通信系统,它采用先进的星上处理技术,以及波束合成区域的覆盖方式,并且通过ATM交换来提高频率复用能力,有着广阔的研究价值和社会效益
程序切片技术是一种重要的程序分析和理解技术,对程序进行切片的过程就是删除无关代码的过程,程序切片技术在程序调试、回归测试、软件维护、程序理解以及逆向工程等方面有着