论文部分内容阅读
随着信息技术的发展,移动终端的智能化,社交媒体也得到了迅猛发展。如今,每天都有大量用户使用社交媒体,社交媒体中传播的信息量也飞速增长。获取这些在社交网络中传播的信息,掌握其传播和发展的规律,对于热点挖掘,商业营销和舆论控制等方面都有很重要的研究价值。对于挖掘数据来说,其较为关键的一点是得到文档之间的相似度,如何求解文本相似度引起越来越多研究者的关注。早期的文本相似度主要侧重于长文本方面,近些年,由于社交媒体上对字符进行限制,所以人们在使用社交媒体的时候更青睐于使用短文本来表达自己的观点,此时,短文本相似度的测量显得更为重要。但是短文本包含的信息量远不及长文本,所以传统的用于长文本相似度测量的方法在短文本相似度测量效果并不好,因此如何更好的测量短文本相似度显得尤为重要。因此,本文提出了基于词性和关键词的短文本测量方法,并将其应用于流行程度预测中,主要工作如下:1.对短文本测量方法Word Mover’s Distance(WMD)算法进行改进:WMD算法首先使用word2vec将文本中的单词在向量空间上的表示,然后通过汇总各个单词的相似度来计算两个短文本之间的距离,WMD算法在多种数据集上都取得了较好的效果。然而这一方法将句子中所有单词赋予同等的权重,没有考虑不同词性的差异和关键词的重要性。因此,本文考虑词性和关键词的重要性,在计算文本相似度时将不同的词语赋予不同的权重,并提出计算权重最优化算法。基于微博情感倾向分类的实验表明,本文改进的WMD算法可以取得更好的性能。2.将改进的WMD算法应用于微博流行度预测中:本文分别使用改进的算法与原有的WMD算法方法提取相似度特征,采取SVM和逻辑回归两种模型,对微博流行度进行预测。通过对比实验发现,使用改进WMD算法在微博流行程度预上可以获取更高的准确率。