论文部分内容阅读
随着web3.0时代和“互联网+”的迅猛发展,全球互联网用户的数量持续增长。联合国2018年12月最新公布的数据显示,全球互联网用户数量达到了39亿,占全球人口总量的51.2%,首次突破全球人口总数的一半。同时,全球经济和数字化经济的蓬勃发展,促进了世界各国之间的经济、贸易、文化、政治和军事等各方面的交流合作。世界各国人民也开始通过互联网这一高速信息渠道参与进来,并借助互联网这一公共交流平台,在各大社交网站和媒体上发表对于全球性事件、跨国贸易和重大军事政治事件等的观点,表明自己的立场。这些立场和观点中蕴含了很重要的信息,由于各国使用的语言不都相同,因此这些不同国家网民表达观点和立场所使用的语言也不尽相同。因此,将这些针对同一事件或事物的不同语言的观点检索出来并挖掘其中的价值是很重要的,也是一大难点。针对这个问题,目前已经完成或者正在进行的研究并不多。通常比较直接的思想是:采用基于翻译的方法,通过人工将源语言的关键词翻译成目标语言,然后再使用目标语言进行检索,得到目标语言的相关结果集;然后在目标结果集中使用人工的方法将带有观点的句子挑选出来。此方法比较依赖于翻译的准确率和人工的参与。虽然如今的翻译系统比较成熟,准确率比较高,但是在不同语境下翻译结果过于单一,难以覆盖所有的检索相关词。而且,人工的参与会带来不必要的成本和一定的误差。本文从链接发现这一思想中的中英文词汇对齐的角度出发,将中英文词汇映射到同一个向量空间,并基于这个向量空间,完成中英文句子的相似度计算和跨语言情感分类,进而完成跨语言检索任务。使用基于跨语言相似度计算的方法使得检索结果更加准确,同时还避免人工参与造成的一些弊端。本文从跨语言词汇对齐、跨语言相似度计算和观点检索三个方面出发,提出了基于词汇对齐的跨语言观点检索模型(Cross-Language Opinion Retrieval Based on Aligned Words,AW-CLORM)解决跨语言观点检索问题。选择Facebook基于fasttext训练的大型中英文词向量数据集进行跨语言词汇对齐;使用SemEval2014中英文平行语料库训练跨语言相似度计算模型用于中英文相似度计算;最后,将人工抓取到的百度贴吧和推特的帖子使用情感分析工具,生成中英文混合情感分类数据,并基于此训练跨语言情感分类模型。对于给定的中文关键词,首先使用检索系统检索出源语言相关文档集Ds,然后通过跨语言相似度计算模型,计算目标语言语料库中与Ds相似度最高的若干文档作为候选文档集Dc;最后结合跨语言情感分类和观点要素匹配检索出Dc中带有观点的文档集,即为跨语言观点检索的结果集,从而完成跨语言观点检索任务。本文的创新主要有三个:(1)提出并完成了跨语言观点检索这一任务,在此之前进行跨语言检索的研究相对较多,但是进行跨语言观点检索的研究基本没有。(2)基于完全无监督的方法,构造了跨语言词向量空间,并完成跨语言词汇对齐任务。该方法基于多维词向量进行词汇对齐,有效提高了词汇对齐的准确率;(3)将基于曼哈顿距离的孪生神经网络应用于跨语言相似度计算。基于双LSTM的神经网络框架将跨语言文本同时输入模型进行训练,有效提取了跨语言文本的相似度特征,提高了相似度计算结果的准确率。实验证明本文的AW-CLORM模型能够有效的完成跨语言观点检索任务,而且检索结果的准确率比较高,P@10达到70%。但是,本文仍有一些不足之处,主要表现在跨语言相似度计算结果的准确率有待提高,观点检索模型有待进一步丰富进而满足更加复杂的观点检索任务,这些都是未来进一步研究和提高的方向。