论文部分内容阅读
近年来,Facebook、Twitter、微博、微信等社交网站已经逐渐成为人们日常生活中的主要社交渠道。人们可以随时随地通过社交媒体建立各种交互关系,从而产生了不同层次和粒度的虚拟在线社交网络。在线社会网络由动态变化的用户和他们的交互关系组成,以支撑网络信息和数据的即时交换。因此,在线社会网络关键用户挖掘方法研究可以帮助企业进行产品推广、帮助政府进行舆情分析、预警与调控,具有实际应用价值。本文以真实的在线社会网络数据为研究对象,主要针对热点话题意见领袖挖掘、持久话题中关键人物分析、信息溯源研究中关键用户提取、信息传播引擎节点挖掘等问题展开研究,并在虚假信息控制和高效网络营销上进行了应用性研究。本文的研究内容主要包括以下四个部分:首先,现有的意见领袖挖掘算法都没有考虑在特定话题中来分析用户的重要程度,应用传统聚类方法很难把某一话题的相关帖子准确地识别并聚类到一起,传统的热点话题意见领袖挖掘方法很难达到预期效果,而且文本的情感分析在舆论领袖挖掘中的应用问题也有待解决。本文提出一种基于话题模型的意见领袖挖掘算法TOLM(Topic Opinion Leader Mining),以真实 BBS(Bulletin Board System)论坛为研究对象,应用 LDA(Latent Dirichlet Allocation)话题模型计算标题的相似度并自动聚类,构建变规模用户回复关系网络模型,通过社会网络分析得到意见领袖以及不同观点派别,能有效捕捉舆情并分析舆论传播特点,对及时疏导舆情有一定意义。本文提出的意见领袖挖掘算法旨在快速发现某一网络热门事件中的意见领袖,综合考虑的帖子的话题属性、情感倾向和网络结构关系,具有较高的实用性。其次,作为一个实时性公共信息平台,BBS上的话题分为突发性话题和持久性话题,其中持久性话题多为贴近生活的民生话题,拥有较长的时间跨度。持久话题中关键用户挖掘的难点在于持久话题的发现与提取和稀疏网络中关键节点挖掘。基于此,文章提出持久性话题中关键人物的分析方法,主要包括持久话题的识别算法和在持久话题社会网络中通过情感加权的节点位置分析来提取关键人物的算法两部分。持久话题的识别主要结合LDA模型和相似度模型并在时间轴上进行刻画。关键人物提取为一种考虑了邻居节点的位置、网络中节点关系的强弱及情感倾向的局部节点位置确定方法。算法在真实数据集验证了有效性。再次,做为一种典型的社交网络平台,微博信息传播速度快,如何准确锁定信息的精准源头是舆情预警的关键。针对现有的算法仅仅找到时间戳最早的节点,没有考虑节点的社会网络关系(好友、关注等)和信息的语义关系的问题,本章以新媒体微博信息传播机制为例,提出了一种信息传播溯源算法ITEAE(Initiators and Early Adopters Extraction)。首先,根据微博转发关系建立级联(会话树)并按主题相关性进行聚类得到级联的集合(会话森林);其次,结合用户关系网和信息级联关系网确定微博信息的真正发起者;再次,通过文本情感分析和信息级联关系迭代计算节点的影响力指数和从众指数,提取微博信息早期重要参与者;最后,分析发起者和早期重要参与者确定信息源头并进行实验评估,并通过删除优质源头节点和全局高影响力节点来控制虚假信息的传播,实验在新浪微博数据集上验证了算法的有效性。相比于已有的研究,本文算法能够通过转发关系形成的级联集合进行信息的溯源。最后,以转发为传播机制微博平台上,信息经常以“引擎节点”为中心进行“核裂变”式传播,挖掘这些“引擎节点”来进行微博营销是一种成本低效率高的营销手段。其问题的关键是准确寻找网络中有影响力的节点作为触发品牌知名度的少数用户,保证在较少投入情况下获得较大收益。基于此,文章提出了一种引擎节点挖掘算法,首先,基于微博转发关系形成信息级联并按时间戳进行剪枝,其次,按话题相关性生成信息级联树,通过计算节点的综合扩散能力来提取不同精度下的引擎节点,最后,以这些引擎节点作为初始传播节点进行信息传播演化,实验结果表明,利用引擎节点进行作为初始节点能够使信息传播速度更快、范围更大。