汉语—泰语的跨语言查询翻译和扩展

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:hnnydbw2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着中国和泰国关系的发展,两国之间在文化、经济、政治等各个方面的交流也不断深入。由于汉语和泰语属于两种不同的语言,为网络信息交流和沟通带来了很多的障碍。为了更好的分享互联网信息,促进中泰网络信息交流,跨语言信息检索技术的研究被提上了日程,它可以很好的解决此语言交流问题。为了提高汉语-泰语的跨语言信息检索的性能,本文研究了汉泰跨语言查询翻译和查询扩展。目前在汉-泰双语语言信息化研究方面,主要集中在泰语或汉语本身的词法、句法、及语义方面的研究,而专门针对汉语和泰语之间的信息处理方面,如汉语与泰语之间的机器翻译、查询扩展等方面的研究工作开展的工作还比较少。在汉语到泰语的翻译研究中,当前没有合适的双语词典作为翻译工具,而且很多未登录词和命名实体也无法用词典翻译,同时也容易产生翻译歧义的问题;由于没有合适的知识库作为扩展词的来源,对泰语扩展词的研究带来了一定的难度。针对以上问题,主要完成了以下研究工作:(1)基于Word2Vec的汉语查询语句的翻译方法针对汉语查询语句的翻译,本文提出了一种基于深度学习工具Word2Vec的汉泰翻译方法。该方法首先需要将汉泰可比语料库中的词,利用Word2Vec工具训练成词向量的形式,以此可以方便挖掘出汉语和泰语词与词之间的线性映射关系,此线性映射关系体现在将不同语言中,概念相似的词的词向量映射到向量空间中其空间分布是相似的。本文利用这种相似分布关系训练出汉泰的翻译矩阵,并通过翻译矩阵获取到泰语翻译候选词。(2)泰语翻译候选词的选取针对翻译歧义问题,本文利用汉语和泰语双语之间的词与词之间的翻译概率关系,结合单语词与词之间的关联关系,提出了一种泰语翻译候选词的筛选方法,用来消除翻译歧义并得到最优的翻译泰语词。(3)泰语查询扩展模型的构建为了提高检索系统的性能,本文提出了一种基于伪相关反馈法的泰语查询扩展方法。该方法的核心思想主要是应用Lucene检索技术检索返回相关文档集,并将返回的相关文档作为扩展词的来源,再利用将KL距离和词共现两种扩展技术通过Borda Count排序法相结合的方法,计算得出查询扩展词。最后,将扩展词添加到原查询语句中,最终可得到泰语查询扩展语句。(4)设计并实现汉泰跨语言查询翻译和扩展的原型系统,为进一步研究汉泰跨语言信息检索提供了平台,为以后的跨语言查询扩展的研究做好坚实的基础。
其他文献
建筑工程管理是一项非常复杂的工作,不仅管理建筑施工技术,还要协调各部门之间的配合.由于近年来建筑企业体制的改革、市场竞争的激烈以及建筑工程安全问题的发生都将会影响
介绍了一套可见光通信的音频传输系统,系统由发射模块,电源模块,接收模块三个模块构成.在发射模块端,用手机,MP3,电脑等输出设备通过音频线将信号传入发射模块,再由白光LED传
卢梭、洛克等人的社会契约思想在西方源远流长,影响深远。它以自由、平等、人权为核心,影响着话方宪政的产生、发展。本文从社会契约思想及其与西方宪政的关系人手,结合我国宪政
《红楼梦》是中国文化的集大成者,是中国历史上一部伟大的文学作品。《红楼梦》在英语世界的翻译已经历了一百多年的历程,共出现了十一种洋洋大观的译本,成为中国文学英译史
在我国扶贫工作已经成为推动社会稳定、经济发展的一项重大事业,现阶段,我国经济虽然保持高速发展,但地区之间发展的不平衡性,分配制度的不健全等因素促使贫困差距也越拉越大。坚持实施金融扶贫战略,是要确保我国在2020年能实现所有贫困人口脱贫,顺利完成十三五规划。当前,我国金融扶贫工作步入新的发展阶段,促进贫困地区经济的发展,彻底消灭解决贫困人口已上升为国家战略高度。我国一直致力于金融扶贫方面的工作,金融
以大跨度钢拱桥广州市新光大桥为工程背景,首先介绍了该桥梁长期健康监测系统的设计与建设过程,然后对该健康监测系统运行至今的实测数据进行展示与总结。新光大桥健康监测系
随着改革开放进程的推进,工商改革和税收增长的改革政策不断深化,为我国经济融入世界经济提供了政策支持.电力产业作为国家经济产业之一,也存在于税制改革中.为了使电力行业
在电力系统运行的过程中,由于多种因素的影响,经常会产生一些突发状况.在对这些应急事故进行处理时,需要运用到各种应急物资.因此,是否能够对这些应急物资进行高效的管理,关
任何翻译都离不开理解,阐释学对翻译的意义不言而喻。近些年来,阐释学在翻译理论中的地位与日俱增,在翻译学界出现了一个新的术语——翻译阐释学。它的出现为我们研究译本提