论文部分内容阅读
社交网络伴随着web2.0的浪潮兴起,正在逐渐改变着我们的生活,从facebook到人人网,从MSN到QQ,从Twitter到新浪微博,社交网络的形式也在发生着变化。各种各样的社交网络正在改变着世界,不仅改变了人与人的沟通方式,也改变了媒体传播和市场营销的方式。微博作为一种便捷的媒体交互平台和高效的信息传播工具,在全球范围内已经吸引了数亿的用户,已经成为人们进行信息交流的重要途径,对经济社会各个领域正产生着日益广泛而深刻的影响。用户作为微博的重要组成部分,不同用户所拥有的影响力和网络资源直接反映了其中所蕴含的巨大的商业价值和传播潜力,同时,同一用户在不同主题下影响力也是不一样的,如何有效地衡量各个用户的在不同主题下的用户影响力和综合用户影响力,进而挖掘其中潜在的价值成为一个亟待解决的问题。针对上述问题,本文提出了一种基于关键词的微博消息主题分类方法和基于改进的TwitterRank算法的用户影响力评估方法。本文用到的数据集来自于中国爬盟公开提供的微博消息数据集以及通过新浪微博API获得的一些数据,通过对这些数据进行分析说明,详细说明了数据集的内容,在此基础上,对数据集中的微博消息进行了主题分类,进而为下一步评估主题相关的用户影响力打下基础。TwitterRank算法是在PageRank算法的基础上,通过考虑用户之间的话题相关性和连接关系,用来评估主题相关的Twitter用户的影响力。本文在TwitterRank算法的基础上,针对新浪微博的特点,通过考虑微博的评论、转发、发布时间相似度等因素,对TwitterRank算法进行了改进,使之能够更准确地对用户影响力进行评估。研究结果表明,本文提出的基于关键词的微博消息主题分类方法和基于改进的TwitterRank算法的用户影响力评估方法是有效可行的。在实验过程中,本文采用朴素贝叶斯分类器的文本分类算法作为对照实验,从而验证了基于关键词的微博消息主题分类方法的准确性。针对基于改进的TwitterRank算法的用户影响力评估方法,本文首先对主题相关的用户影响力计算结果进行了分析,分析了用户影响力与关注数、粉丝数、微博数以及微博平均关注度之间的关系,在此基础上,本文进而对用户综合影响力计算结果与关注数、粉丝数、微博数以及微博平均关注度直接的关系进行了分析,最后得出相关的结论。