论文部分内容阅读
微博作为一个新兴的社交媒体服务,从各个方面渗透并影响着人们的生活,成为人们共享信息、交流情感的一个重要平台。其中大部分的个人微博内容记录其生活经历、专业兴趣以及热点话题的讨论等,所以微博数据就成了个人履历情感的载体。由于发微博的的实时性、便利性有时甚至是秒发,这样个人微博就逐渐代替了日记,形成了时记或分记,这样长时间后形成的微博数据量会非常庞大,想要了解博主就只能通过逐条浏览其历史微博,这就造成了时间浪费。如何快速准确的了解博主的动态已成为目前急需解决的问题,微博归类就是针对这一问题而提出的。在微博归类过程中,微博相似度的精度决定了其的准确性,本文研究的重点就是如何提高微博相似度的精确性。由于个人微博数据总体数量较多、单条简短及内容随意性大等特性,利用传统分类方法以及信息提取算法进行处理时存在一定的局限性。本文考虑到单条微博文本信息简短包含的有效特征少,且内容比较口语化的特性,从同类词方面对文本的特征词进行了扩展,尽量降低特征丢失的可能性,提出了一种基于改进的Jaccard相似度和余弦相似度的综合相似度算法。首先,对获取的微博数据进行过滤,去除没有任何信息的文本和无关链接、图片等,并利用相关中科院的汉语词法分词系统ICTCLAS对文本进行分词、做词性标记和过滤停用词以及表情词;其次,采用改进的TF-IDF算法提取微博特征词和LDA(Latent Dirichlet Allocation)主题模型构造同类词模板来提高微博相似度的精度,即先利用特征选择评估函数CHI衡量每个特征词对每个类别的重要程度并使特征词在该类别文本中符合均匀分布后再计算TF-IDF值来提取微博特征词;然后,在提取的特征词和构造的同类词模板的基础上结合Jaccard相似度和余弦相似度计算个人微博的综合相似度,该算法克服了传统只基于词语共现方法的不足,能够从同类词特征和个体数值特征等方面更深层次、更全面的计算两条微博的相似度;最后,利用K-Means时序事件归类算法对个人微博数据进行归类,使相同话题微博归类到同一个集合中。实验结果表明本文提出的综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。