论文部分内容阅读
近年来,随着中国和泰国关系的发展,两国之间在文化、经济、政治等各个方面的交流也不断深入。由于汉语和泰语属于两种不同的语言,为网络信息交流和沟通带来了很多的障碍。为了更好的分享互联网信息,促进中泰网络信息交流,跨语言信息检索技术的研究被提上了日程,它可以很好的解决此语言交流问题。为了提高汉语-泰语的跨语言信息检索的性能,本文研究了汉泰跨语言查询翻译和查询扩展。目前在汉-泰双语语言信息化研究方面,主要集中在泰语或汉语本身的词法、句法、及语义方面的研究,而专门针对汉语和泰语之间的信息处理方面,如汉语与泰语之间的机器翻译、查询扩展等方面的研究工作开展的工作还比较少。在汉语到泰语的翻译研究中,当前没有合适的双语词典作为翻译工具,而且很多未登录词和命名实体也无法用词典翻译,同时也容易产生翻译歧义的问题;由于没有合适的知识库作为扩展词的来源,对泰语扩展词的研究带来了一定的难度。针对以上问题,主要完成了以下研究工作:(1)基于Word2Vec的汉语查询语句的翻译方法针对汉语查询语句的翻译,本文提出了一种基于深度学习工具Word2Vec的汉泰翻译方法。该方法首先需要将汉泰可比语料库中的词,利用Word2Vec工具训练成词向量的形式,以此可以方便挖掘出汉语和泰语词与词之间的线性映射关系,此线性映射关系体现在将不同语言中,概念相似的词的词向量映射到向量空间中其空间分布是相似的。本文利用这种相似分布关系训练出汉泰的翻译矩阵,并通过翻译矩阵获取到泰语翻译候选词。(2)泰语翻译候选词的选取针对翻译歧义问题,本文利用汉语和泰语双语之间的词与词之间的翻译概率关系,结合单语词与词之间的关联关系,提出了一种泰语翻译候选词的筛选方法,用来消除翻译歧义并得到最优的翻译泰语词。(3)泰语查询扩展模型的构建为了提高检索系统的性能,本文提出了一种基于伪相关反馈法的泰语查询扩展方法。该方法的核心思想主要是应用Lucene检索技术检索返回相关文档集,并将返回的相关文档作为扩展词的来源,再利用将KL距离和词共现两种扩展技术通过Borda Count排序法相结合的方法,计算得出查询扩展词。最后,将扩展词添加到原查询语句中,最终可得到泰语查询扩展语句。(4)设计并实现汉泰跨语言查询翻译和扩展的原型系统,为进一步研究汉泰跨语言信息检索提供了平台,为以后的跨语言查询扩展的研究做好坚实的基础。