论文部分内容阅读
中文文本相似度计算是中文信息处理相关研究领域中的重要基础,在信息检索、知识挖掘、舆情分析等领域中有着广泛应用。目前的中文文本相似度计算方法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,这样得到的相似度值往往与人们的主观理解不一致。本文深入分析和研究了当前基于语义的中文文本相似度计算方法,并针对方法中存在的问题进行改进,使计算得到的相似度能够更为准确地反映中文文本间的语义相似性。本文主要研究贡献点有以下几点: ①提出一种改进的基于HowNet的中文词汇语义相似度计算方法。针对当前基于HowNet的词汇语义相似度计算方法没有充分考虑知识库描述语言的顺序性特征,对当前计算方法进行改进。首先,充分考虑知识库描述语言对概念进行描述的线性关系特征,提出一种位置相关的权重分配策略。其次,将所提出的策略结合二部图最大权匹配进行概念的相似度计算。最后,将概念相似度计算方法结合现有方法进行中文词汇语义相似度计算。 ②提出一种改进的中文文本语义相似度计算方法。针对当前基于语义的文本相似度计算方法没有综合考虑文本之间在语义内容上的共性和差异性对文本相似度的影响,对当前计算方法进行改进。首先,为了考虑文本特征向量中特征项之间的差异性,在构建关于文本特征向量的二部图时为虚拟顶点设置非零权重值。其次,为二部图中的空特征项顶点与非空特征项顶点设置较小的固定相似度值。 ③在上述中文文本语义相似度计算方法研究基础上,结合谱聚类方法进行基于语义概念的中文文本谱聚类应用研究。首先,在深入分析谱聚类中关于相似度图构建方法的优缺点基础上,结合中文文本语义内容分布特点和上述中文文本语义相似度计算方法,给出了一种更为合理的相似度图构造方法。其次,基于相似度图的邻接矩阵进行中文文本谱聚类。 ④对上述提出的改进方法及基于语义的文本谱聚类应用的效果进行了实验验证。实验表明,改进的词汇语义相似度计算方法较当前其它一些方法能够更为准确的计算词汇间的语义相似度值;改进的中文文本语义相似度计算方法能够更为确切的度量文本间在语义内容上的相似性大小;基于语义的谱聚类方法相比其它聚类方法能够进一步提高中文文本聚类的聚类效果。 本文研究的中文文本语义相似度计算方法主要用于计算文本在语义内容上的相似性大小,可以为中文文本信息知识挖掘相关应用提供良好的方法基础。