论文部分内容阅读
微博作为现如今传播最广、渗透最深的富信息类社会化媒体与社交工具,让个人和企业都能够即时提出观点、发表意见。相比传统的信息获取渠道,如报纸或社会主流媒体,微博信息的准确性或有欠缺,但却能第一时间将信息传递给大众并形成传播。因此对微博内容进行数据挖掘可以获悉隐含的规律和有价值的信息。随着网络信息碎片化程度加剧,能否对微博类的短文本进行有效地聚类挖掘其背后的价值,是近年来一直被关注的问题。但是由于微博类短文本的特点,使用传统聚类算法对其分析不太适用。为此本文提出了针对微博的聚类方法,能够有效地对微博文本内容进行聚类,并且以此为基础,进行了影响力传播分析,挖掘出一些微博文本影响力相关的结论。 本文以上市公司新浪微博为例,设计并实现了爬虫程序,完成了数据的采集和基本处理。在微博文本聚类部分,本文分析并设计了微博文本向量化方法表示微博文本数据,并基于频繁词集进行降维处理,最后采用改进的 K均值聚类算法聚类并基于高频词集进行类簇表示。在影响力传播分析部分,本文研究了微博影响力的定义和微博的传播机制,然后提出了本文的微博影响力评估模型,最后实验证明本文提出的影响力评估模型是有效的。本文根据实验和结果分析得到以下结论: (1)使用文本向量空间模型和改进的K均值算法对微博文本聚类是有效的,短文本聚类对文本特征集的选取有密切关系,本文通过设置不同阈值选取特征项对文本向量化,聚类并进行类簇对比,得到了较理想的类簇结果。 (2)基于H指数构建微博影响力评估模型在一定程度上可以度量影响力大小,但是模型结果会忽略微博的平均情况,向影响力较大的微博部分偏倚。基于微博信息和用户行为信息构建的影响力评估模型,能够很好的对单个微博影响力进行量化。通过实验结果,本文发现突发新闻类,视频直播类,银行、金融类,抽奖类微博具有较高的影响力。