论文部分内容阅读
大数据分析的日益发展与舆情分析任务要求的不断增长,对中文文本信息的处理提出了新的要求,尤其是短文本的出现及迅速发展,使得对中文短文本相似度的研究成为当前大数据时代信息处理的研究热门。中文短文本具有文本篇幅短、词语数量少、文本语义丰富、文本结构复杂等特点,需要恰当、合适的方法来计算中文短文本之间的相似度。传统的基于TF-IDF的计算方法可以根据文本中共同出现的词语和出现词语的次数,文档词频与逆文档词频等特征计算文本之间的相似度;这种传统的算法在计算长文本之间的相似度时表现较好,但是对短文本相似度的计算效果欠佳,究其原因,是长文本的篇幅较长,包含的词语数量较多,且有些词语频繁出现,而短文本的篇幅较短,包含的词语数量较少,而且这两种计算方法在计算过程中,没有考虑到中文语言的特点,如:语法结构、一词多义等,因此对短文本相似度的计算,它的计算结果不能令人满意。针对以上问题,本文在分析了中文词语与短文本的特点的基础上,通过选取中文词语的多个重要特征,对短文本构建计算模型,提出一种基于语义与句法结构的短文本相似度计算方法和一种基于复杂网络的短文本相似度计算方法。第一种算法首先计算中文词语的语义相似度,在计算过程中提取了中文词语在HowNet中描述的义原的路径长度、层次深度、密度与词项的情感等重要特征,并对中文词语作词义消歧工作,再对中文语句的句法结构进行分析整理,计算中文语句的主题相似度与句法结构相似度,最后通过二元集合法计算得到短文本相似度。第二种算法首先对经过预处理的中文短文本建立复杂网络模型,并计算每个节点的复杂网络综合特征值,并将短文本的这一特征值作为短文本相似度计算的重要参数,然后计算词语的相似度,并将词语相似度值作为短文本的向量元素,对其计算向量的余弦相似度,最后根据短文本相似度的定义计算短文本的相似度。对本文提出的算法进行仿真实验,并与其他算法做对比,经过分析仿真实验的数据,结果表明本文提出的算法在短文本的相似度计算的准确率与F值上有一定的改善。