论文部分内容阅读
文本相似度量,顾名思义,就是衡量两个文本之间语义相似的程度。是自然语言处理(Natural Language Processing,简称NLP)中一个非常重要的任务,也是很多下游应用的基础。文本相似度量在诸多领域都有着十分广泛的应用,比如文本重复检测领域,图像检索领域,信息检索领域,文本摘要自动生成领域以及文本分类领域。传统的文本相似度量方法通常有两种,分别是基于统计学的方法和基于语义分析的方法。前者一般都将文本视作一组词的集合,然后分析在整个文本集合中每个词项出现的次数,以及文本中每个词项出现的次数,接下来利用得到的词频信息,以此为基础将文本进行向量建模,随后利用向量间的余弦相似度、Jaccard系数等来计算文本间的相似性。后者考察文本间相似性通则常利用特定领域的语义词典来构建词语间的语义关系。现有的比较常见且完备的语义词典包括:WordNet用来研究词语消歧;知网(HowNet)用来进行句子和词语的语义相似度研究;同义词词林用来计算句子间的相似度。基于统计学的方法的缺点在于忽略了文本中词项的含义,也忽略了词项间的语义关系。同时,由于词项和文本数目的庞大,会导致文本表示模型中的向量维度极高且稀疏;基于语义分析的方法又需要大规模的知识库构建词项词项语义间的关系,虽然可以在基于统计的方法中对语义项进行某种程度的扩展,但是也进一步提高文本表示的向量维数,所以也不能够很好地反映两文本之间的相似性。TF-IDF方法就是一种传统的基于统计学的文本相似性度量方法,主要是利用文本词频向量建模,然后利用余弦相似性度量等方法来计算文本间的相似性。所以在本文中,以TF-IDF模型为基础,同时在文本中分析关键词项的语义信息,运用了一种文本相似性度量的新方法。本文使用的方法首先对文本预处理,采取自然语言的处理技术,然后使用TF-IDF方法在文本寻找TF-IDF值较高的关键词项。然后随着外部词典词分析,结合使用一种相似度加权树,和文本语义相似度的定义计算两个文本之间的相似程度。最后以基准数据集合来进行文本聚类实验,比较优越性。最终实验结果表明,本文使用的方法在以准确率、召回率、宏平均为评价指标的状况下优于TF-IDF方法和另外一种基于词语语义相似度(本文称之为WRSim)的方法,进一步验证了本文使用方法的有效性。