论文部分内容阅读
微博作为舆情分析中基础数据的主要来源之一,如何对其进行有效提取是数据获取的关键问题。为此,提出一种基于用户影响力的数据提取算法,以满足舆情系统对数据的需求。该算法首先利用模拟登录技术获取用户关系并依此构建用户网络,再根据自主设计的用户影响力计算方法计算出影响力,进而建立符合微博特征的影响力最大化模型挖掘出最具传播能力的k个节点,最后爬取相应的微博数据。实验证明,该算法能够有效提高获取数据的质量,为舆情分析提供更好的数据支持。