论文部分内容阅读
在信息处理中,文本相似度的计算广泛应用于信息检索、分类、聚类以及其他与知识管理相关的领域,是一个非常基础而重要的问题,长期以来一直是人们研究的热点。目前的文本相似度研究多利用统计学原理来进行研究,投入了较多的精力去关注词频,而忽视了一个同样重要的因素——词序(词语在文本中出现的次序)。为了更好的将词序应用到文本相似度计算领域,本文利用马尔科夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来记录和使用词序,同时考虑到词频在文本相似度计算中的重要性,采用了传统的向量空间模型中的TF-IDF方法来对词频信息加以利用。本文首先使用一种高效的算法来对文本做预处理,然后快速的生成TF-IDF方法所需要的TF项和IDF项(使用边建树边搜索树的方法可以提高其效率)。再根据源文本集合生成马尔科夫模型的状态转移矩阵(本文把单个词语作为马尔科夫模型中的一个状态来看待)。随后在文本相似度计算中,使用一种将最长公共子序列、马尔科夫状态转移矩阵和TF-IDF相结合的算法得到初步结果。然后再根据这个初步结果与阈值相比较来决定是否利用两个文本的公共子串信息。在初步结果大于阈值的情况下,使用一种基于序差的算法来求取两个文本的所有公共子串,再利用所有公共子串的长度以及个数来对初步结果进行相应调整,这样有效的提高了计算结果对数据集的分离度。最后使用人工标注的详细的分类信息来作为判断标准来对实验结果进行评估(试验结果的评估算法采用目前较为常用的KNN方法)。本文使用英文TREC-9的部分数据集对基于马尔科夫模型的文本相似度计算方法进行了测试,试验结果表明:在同等分词及评估条件下,基于马尔科夫模型的文本相似度计算结果要比单纯采用传统的基于向量空间模型的TF-IDF方法提高5%—15%。