基于非参数贝叶斯学习的多语言人名音译研究

被引量 : 0次 | 上传用户:LINGER123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网上包含来自世界各地的大量文化、科技、生活、娱乐信息。为了让人们能够轻松的检索、阅读各种语言撰写的信息,机器翻译、跨语言信息检索和抽取等自然语言处理技术成为了迫切的需求。音译是这些跨语言自然语言处理技术的重要基础;是大多数命名实体和未登录词的翻译方式;人名作为命名实体和未登录词的主要成分是音译的主体。本文将主要研究基于统计的人名音译方法,并结合基于规则的方法实现多语言间人名音译。音译主要分为基于规则的方法和基于统计的方法两类:基于规则的方法通过人工建立双语音节切分和对齐的规则实现音译;基于统计的方法通过对大量双语人名对语料上进行统计分析来构建对齐模型和解码模型,也是目前音译的主流研究方法。本课题主要研究基于统计的音译方法,同时结合基于规则的方法实现英、西班牙、俄、日四种语言到中文的人名音译,最后搭建在线音译系统整合这四个音译模型。本文的主要的工作与贡献点如下:(1)针对基于统计音译方法中的对齐模型常遇到的过拟合问题和人名多起源问题,提出非参数贝叶斯方法“紧密耦合的狄利克雷混合模型(coupledDirichlet process mixture model, cDPMM)”进行音译的聚类和对齐。cDPMM采用狄利克雷过程进行人名对的双语切分,实现音节的对齐;再根据人名起源(双语人名对的音译对齐相似度)利用狄利克雷混合模型实现双语人名对的无监督聚类。cDPMM将双语切分对齐和人名聚类紧密的耦合到一个模型中,让对齐和聚类的结果在每轮采样中相互作用。(2)采用基于短语的Moses系统的解码器进行音译解码,对抽取的短语表融合:短语起源区分度、短语字符数比、短语音节数比三个新特征;我们对音译解码的N-best结果,根据N-grams特征、源和目标人名音节数比、音译系统排序三类特征在log-linear原理下进行重排序。实验结果证明我们的解码特征和重排序方法提高了音译准确率。(3)把提出的基于统计的方法应用到英-中、西班牙-中的人名音译;采用基于统计和规则相结合的方法克服俄-中和日-中的平行语料缺乏问题,实现俄-中、日-中音译。(4)采用基于Django的开源Web框架搭建在线音译系统,整合四个音译模型。
其他文献
基于《混凝土异形柱结构技术规程》(JGJ 149—2006)和其他现行规范,介绍了异形柱框架-剪力墙结构的概念及特点,并对规范条文中关于异形柱框架-剪力墙结构的要求进行了整理和
蒂姆·伯顿作为好莱坞著名的"鬼才"大导演,他的电影风格独特,诡异而充满想象力。本人通过对他的电影作品的仔细研究,分析出他的作品在黑暗、阴郁、恐怖的哥特式风格下,所蕴藏
湖泊是重要的地表水资源 ,它们与湖泊周围人群的生活密切相关。由于受到人类生产和生活的影响 ,湖泊所受的污染越来越严重 ,盐化 (重金属化 )、富营养化和酸化正在使水质日益
正确认识反腐倡廉形势,是科学决策的依据、坚定信心的基石、做好工作的前提。本文结合青海省反腐倡廉建设力度加大、成效明显,但形势依然严峻、任务依然艰巨的现状,充分认识
目的:系统、全面评价天麻钩藤饮治疗眩晕的临床有效率和安全性。方法:计算机检索中国期刊全文数据库、重庆维普中文科技期刊数据库、中国知网数据库、中国生物医学文献数据库
<正>无论是新世代天籁全新DNA的产品,还是东风日产对经销体系的再认识和再思考,这些都将是它在新十年把自己锻造成为行业鲨鱼的必由之路2013年2月26日,东风日产在广州发布了
美国印第安文学作为一支边缘文学,近年越来越得到评论界的关注。西尔科作为其代表作家,凭借其对正义主题的关注一跃成为"美国四大印第安作家"之一。从西尔科本人及其作品、正
湘西苗族鼓舞作为民族文化大家庭中的重要一员,至今已有千百年历史。它不仅反映了苗乡人民质朴的生活,而且舞蹈表演丰富多彩,表演形式和内涵都彰显着丰富而独特的魅力。社会
目的:比较3种超声倒预备尖对哑铃型牙根根管峡部预备成型的差异。方法:120颗由一个峡部连接2个主根管的哑铃型离体上颌前磨牙,随机均分成3组(n=40),分别用超声波配3种倒预备尖对
普鲁士——德意志地区在19世纪初就开始实施普遍义务教育,推广职业技术教育,重视大学科学研究,这些教育方面的改革极大地推动了近代德国的崛起与社会发展。