英汉人名音译的研究

被引量 : 0次 | 上传用户:cdronglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名音译指利用源语言及目标语言发音规则的异同将源语言形式人名翻译成目标语言形式,在机器翻译、双语语料库对齐等多语言处理任务中有重要作用。本文重点研究如何构建英文来源的英汉人名音译模型及人名来源识别模型。针对英汉人名音译的特点及现有研究存在的问题,提出一种基于音节划分和短语表优化的人名音译方法。本文将人名音译转换为以音节为基本单位的翻译问题,将连续的音节组合看作短语,引入一种基于短语的统计机器翻译方法,实现英汉人名的音译。首先,针对现有音节划分方法存在的问题,提出一种改进的划分方法;其次,训练语料偏小导致短语表中存在杂质信息,提出去除低频词法、基于C-value的除杂法及基于粘结度的除杂法等三种方法优化短语表,实验表明,基于C-value的方法可有效去除短语表的杂质信息;之后,融入汉语人名中首尾字的位置特征,对生成的音译候选重新调整先后顺序,改善了音译候选汉字选取的不合理性;最后,提出在解码阶段引入两阶段音节划分方法,缓解了由于音节划分粒度过大导致在短语表中找不到翻译所引起的音译错误。实验结果表明,通过上述四方面的改进,其音译准确率由63.08%提高到67.62%。不同来源的人名具有不同的发音规则体系,因此,在对人名进行来源识别后再进行音译,其效果会更加准确。本文提出基于发音规则与统计融合的两阶段方法解决人名来源识别问题。首先,利用汉语拼音规则、日语片假名发音规则将人名粗略分为四大类;然后,使用基于统计的方法——朴素贝叶斯分类方法实现最终的语言来源识别。选取基于字符的N-gram语言模型、基于发音单元的N-gram语言模型及基于发音单元的位置特征作为实验的特征,使用不同的特征组合分别进行人名来源识别实验。实验结果表明,给定英文形式人名,判断其来源是汉语、日语还是英语时,使用基于字符的四元模型、基于发音单元的二元模型及基于发音单元的位置特征三者融合后的方法,人名来源识别的效果最优,准确率达到98.39%。
其他文献
长期以来,党和国家对中小学生的德育工作十分重视,党中央先后制定颁发了《中小学德育工作规程》、《中小学德育纲要》和《中共中央、国务院关于进一步加强和改进未成年人思想
国内使用的钻井液包被剂主要为有机高分子类,存在适用性单一、耐温抗盐性不够理想、环保性能不满足相应国家标准要求等不足。以生物聚合物为主要合成单体,并加入非离子、阴离
针对油井因含水过高而造成的水处理费用增加、管线泵站腐蚀严重和油井经济效益过低或根本无效益而导致的过早关停问题 ,进行了井下油水分离采油技术研究。运用水力旋流分离技
随着经济社会的发展,我国保险业履行社会责任的愿望开始提升,范围不断扩大,方式也多种多样,但其履行社会责任的环境还需改善,认识和能力还需提高。因此,本文建议加强政府立法
本文通过中医药在人类繁衍生息过程中的重要作用以及中医药文化在人类文化中的重要地位,阐述中医药文化传承的必要性和重要性,探索中医药文化传承的具体措施,为培养全面发展
随着2010年多家中国教育培训机构在美国上市,这个新兴行业,特别是课外辅导行业引起了社会广大的关注。然而,很多人对这个行业的实际发展情况知之甚少。本文首先界定了民办教
PID控制是一种应用很普遍的控制技术,目前在很多方面都有广泛的应用。本文主要研究的是PID控制器继电自整定方法。根据瑞典学者KJ.Astrom提出的在继电反馈自动整定PID控制参数
目的分析并评价噻托溴铵与沙美特罗替卡松及二者联合吸入治疗中重度稳定期慢性阻塞性肺疾病的临床疗效。方法随机将2011年10月至2013年10月期间收治的165例慢性阻塞性肺疾病
<正>一篇(组)好的新闻报道,引发媒体和受众热烈反响,必须遵循新闻传播规律,用新鲜生动的事实说话。要做到这一点,只有运用创新报道思维,抓住事物本质,选择最佳报道角度,新闻
以陕西商洛黄铜尾矿为研究对象,通过对该地区铜尾矿物相分析结果,选择合适的浮选药剂和工艺方法,最终指标较好的铜精矿。根据分析测定该铜尾矿成分、结构特点,对铜尾矿依次进