论文部分内容阅读
云计算技术的成熟及大数据时代的来临给传统行业带来了巨大的冲击,适用于传统行业的分析方法及解决方案需要进行重新设计。交通信息工程及控制领域的众多半结构及非结构化信息也需要引入云计算及自然语言处理等新的分析平台与及应对方案。自然语言处理从不同的层次可以分为词法分析、句法分析、语义分析、文摘生成、文本分类及文本聚类等。自然语言处理的很多技术已得到较为成功的应用,如中文分词、机器翻译等。经过长期的发展,低层次的自然语言处理已有很多较为成熟的方法,而高层次的自然语言处理由于计算复杂度高等其他方面的原因而进展缓慢。云计算为文本相似度计算等高层次的自然语言处理提供了新的解决方案。本文对基于云计算的多特征融合文本相似度计算进行研究,主要是在Hadoop云计算平台下,对低层次的基于词语共现的文本相似度、较高层次的基于语义相似度的文本相似度、高层次的基于余弦相似度的文本相似度、更高层次的基于语言网络的文本相似度进行分析,通过对四个不同层次特征的文本相似度进行线性融合,提出了基于云计算的多特征融合文本相似度计算方法并在Hadoop平台上进行验证。论文主要包括以下五个方面的内容:首先,对低层次的基于词语共现的文本相似度计算进行研究并进行并行化,针对Hadoop云计算平台的特点设计Map、Combine、Reduce函数计算基于词语共现的文本相似度,将文本的Jaccard相似度作为基于词语共现的文本相似度计算结果。其次,对较高层次的基于语义相似度的文本相似度计算进行研究并进行并行化,采用现有的语义相似度计算方法,针对Hadoop云计算平台的特点设计Map、Combine、 Reduce函数计算基于语义相似度的文本相似度,将文本所有词语对的语义相似度之和的算术平均值作为基于语义相似度的文本相似度计算结果。再次,对高层次的基于余弦相似度的文本相似度进行研究并进行并行化,对中文分词及去停用词后的文本向量进行处理,并计算文本向量的余弦相似度,针对Hadoop云计算平台的特点设计Map、Combine、Reduce函数计算基于余弦相似度的文本相似度,将文本向量的余弦值作为基于余弦相似度的文本相似度计算结果。然后,对更高层次的基于语言网络的文本相似度计算进行研究并在Hadoop云计算平台下借助X-RIME实现了对语言网络的节点的PageRank值计算,将较低的PageRank值之和与较高的PageRank值之和的比值作为基于语言网络的文本相似度计算结果。最后,在Hadoop云计算平台下将低层次的基于词语共现的文本相似度、较高层次的基于语义相似度的文本相似度、高层次的基于余弦相似度的文本相似度及更高层次的基于语言网络的文本相似度进行融合,采用线性融合函数,对四种不同层次特征的文本相似度计算结果设置不同的权重进行加权融合,实验结果验证了本文所提出的基于Hadoop云计算平台的多特征融合文本相似度计算方法的可行性与有效性。