论文部分内容阅读
随着微博应用的蓬勃发展,越来越多的网络用户使用微博记录生活点滴、分享兴趣爱好和发表意见评论。与传统网络媒体数据相比,微博数据具有一些独特的特点,包括长度短、规模大、质量低、实时传播和社交网络等。因此对微博数据挖掘研究提出了一些挑战:(1)由于微博消息长度较短,传统的长文本的挖掘算法无法直接用于微博消息,因而需要研究适合微博的短文本挖掘算法;(2)微博消息是-种“用户生成内容”,消息文本中包含网络新词、拼写错误和缩写等。因而微博消息文本质量有限,仅依靠现有的自然语言处理技术是不够的,需要不断地发展新的文本处理技术解决上述问题;(3)微博数据规模巨大,要求数据挖掘算法具有高效性和可伸缩性;(4)微博除了含有大量的文本数据以外,还包含大量的非结构化数据,如社交网络关系。设计合理的存储策略和索引结构对于微博数据维护和算法性能提升至关重要。微博作为信息分享的社交网络平台,每当热点事件发生,众多网络用户借助微博平台参与讨论,发表评论观点和表达自身关切。大量的个人观点经过微博平台的汇聚融合形成群体观点,成为社会舆论的重要组成。因此群体观点挖掘成为了分析热点事件、洞察大众心理和了解公众观点的重要技术手段。可是现阶段微博中存在大量垃圾用户及其消息,这会直接影响群体观点挖掘的算法性能。所以应该在预处理阶段尽可能多地过滤掉垃圾用户及其消息。另外,微博不是一个固定不变的数据集,随着新的用户评论不断产生,如何维护更新群体观点挖掘的结果成为了必须面对的问题。而数据管理技术可以帮助提升挖掘算法的执行效率和算法性能。本文对微博数据挖掘的三个基本问题进行研究,分别是反垃圾处理、群体观点挖掘和二分图数据管理。主要贡献有以下几点:1.针对微博中的反垃圾消息处理问题,提出了基于重用检测模型的垃圾用户检测算法,该方法综合考虑了消息序列中文本相关性和时间相关性,对垃圾用户的行为强度进行了有效建模。按照检测策略不同,基于重用检测模型的检测算法分为语句级别检测(SRD)和词项级别检测(TRD)。 SRD算法侧重于用户行为方式,而TRD算法着重于垃圾消息的主题信息。基于真实数据集的实验表明,SRD算法在整体性能上优于TRD算法,但TRD算法可以发现被SRD算法忽略的潜在垃圾用户。最后,采用重用检测算法对用户转发行为进行检测,基于转发关系实现垃圾用户的群体发现。2.为了研究微博中的群体观点挖掘,提出了一种基于“词项-消息-用户”的TWU图模型,该图模型结合了文本内容、时间因素和社交网络三种关键特征,对微博用户行为进行有效建模。不同于以往结合时间因素的图模型,TWU模型把时戳作为边的属性来处理,而不是单独的时戳结点。这样避免了时戳结点成为高度数结点后带来的计算瓶颈问题。相应地,基于TWU模型提出了时间敏感性随机游走算法TSRW,对词项相关性进行度量进而挖掘群体观点。实验表明TSRW算法明显优于其他基准测试算法,并且通过可视化技术展示了挖掘结果。此外,针对图数据挖掘中的增量式计算问题进行了初步的研究,因为在一个不断演变的图数据集上每次重新挖掘群体观点是不现实的。所以提出了增量式的随机游走算法,可以及时更新维护群体观点挖掘的结果。3.针对二分图的数据管理问题,总结了二分图上的基本原子操作,定义了原子操作的代数表达形式。提出了基于极大星型图的原子操作实现方法,并且理论证明了此方法的可行性。为了支持二分图上的查询和分析任务,提出了基于星型图的数据存储策略和索引结构。总而言之,本文研究了反垃圾处理、群体观点挖掘和二分图数据管理三个基本问题。实验采用真实微博数据集进行算法测试,实验结果验证了本文所提出的算法是有效的和可行的。