英汉人名音译方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:windamill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名翻译接收一个源语言表示的人名作为输入,输出该人名以目标语言表示的翻译。在人名翻译过程中,在保持源语言和目标语言发音基本不变的原则下,调整源语言人名使之符合目标语言的语言习惯。人名自动翻译是很多跨语言应用的一个很重要的组成部分。近年来,人名音译的研究受到越来越多的关注,特别是当音译涉及的两种语言的字符集差异比较大的情况(例如:英文和中文这两种语言)。尽管关于中英文跨语言应用有很多,但是对这两种语言之间的自动音译目前还缺乏全面系统的研究。   本文主要针对英汉人名音译问题进行研究,系统地比较了几种音译模型在进行英汉人名音译时的性能。主要内容如下:   (1)将英汉人名音译问题转化成序列标注问题,并采用基于记忆的学习方法、最大熵模型和条件随机场模型三种机器学习方法进行英汉人名音译。通过实验对比了这几种方法在多种特征集上的音译性能,实验表明,在使用相同特征的条件下,条件随机场模型的性能最好。   (2)将基于短语和基于双语N-gram的两种统计翻译模型应用于英汉人名音译,并对比了它们的性能。实验表明,当翻译模型和语言模型从同一个训练语料上获取的时候,基于双语N-gram的音译模型的性能优于基于短语的音译模型。此外,还考察了两种统计音译模型在不同语言模型上的表现,实验结果显示,好的语言模型有很强的重排序作用,能较大地提高英汉人名音译性能。   (3)通过对以上五种音译模型在英汉音译问题上的实验结果进行分析,本文作者发现,以上五种模型的性能虽然有差距,但是差距并不明显,而且它们的结果的重合度很高。另外,正确结果大多数会出现在结果列表中,但是很多出现在靠后的位置。这可能预示着单纯用统计方法进行英汉人名音译在方法上是不足够的,需要求助于别的手段获取更好的音译结果。在这个指导思想下,本文设计了网络挖掘和统计音译结合的英汉双语人名音译系统,并实现了其中的统计音译模块。   以上工作为网络挖掘和统计音译相结合的英汉双语人名音译系统的研发奠定了基础。
其他文献
本论文以某型高炮武器数字化改造项目为背景,以高炮武器综合管理计算机系统设计为研究内容,分析了高炮综合管理计算机系统的功能及设计要求。文章重点阐述了高炮武器综合管理
随着互联网技术的深入发展与普及,社交媒体已经渗透到社会生活的方方面面,成为人们传播信息、分享情感和表达意愿最主要的渠道之一。互联网用户在社交媒体平台上通过发布内容、
随着人们对安全问题的日益重视,基于生物特征的身份识别技术逐渐受到了广泛的关注。而虹膜这种生物特征,由于其唯一性、稳定性、非接触性和高防伪特性,成为了生物特征识别领域的
学位
跟踪与数据中继卫星工作在空间微重力环境中,用于为卫星之间,卫星与其他空间设备之间,或是空间设备与地面观测站之间提供跟踪与数据中继服务。为了建立和保持设备间的链路,需要根
在美国“911”恐怖袭击之后,安全问题越来越引起政府和广大群众的重视,而视频监控系统在国民经济和国防建设中发挥中越来越重要的作用,广泛应用于银行、火车站、机场、地铁站
随着三维激光扫描技术的发展,现实世界中越来越多的复杂物体都可以通过激光扫描的方式建立其三维数字几何模型,并且这种基于实物测量的数字化建模方法正逐渐成为一种发展趋势。
导弹控制系统是导弹的神经中枢,其任务是克服弹体飞行中的各种干扰,确保导弹稳定飞行,并根据预先拟定的飞行姿态程序或制导系统给出的导引指令,实时准确地控制导弹的飞行姿态,达到
随着科技的发展,图像识别技术在社会生产和生活领域有了广泛的应用,尤其在水果自动识别领域,应用图像处理和识别技术已变得越来越具有吸引力。水果图像的自动识别大大减轻人工的
分子影像是本世纪初发展起来的生物医学成像技术,它可以在分子水平上实现生物有机体生理、病理变化的实时、无创、动态的在体成像,为研究特定基因功能、生物体生长发育、疾病发
立体视觉是计算机视觉中的核心问题,具有重要的理论研究价值和广泛的应用背景。到目前为止,计算机视觉领域对立体视觉的研究都是使用数学和工程算法,而很少从生物立体视觉的角度