基于图模型的微博数据分析与管理

被引量 : 0次 | 上传用户:zjflxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博应用的蓬勃发展,越来越多的网络用户使用微博记录生活点滴、分享兴趣爱好和发表意见评论。与传统网络媒体数据相比,微博数据具有一些独特的特点,包括长度短、规模大、质量低、实时传播和社交网络等。因此对微博数据挖掘研究提出了一些挑战:(1)由于微博消息长度较短,传统的长文本的挖掘算法无法直接用于微博消息,因而需要研究适合微博的短文本挖掘算法;(2)微博消息是-种“用户生成内容”,消息文本中包含网络新词、拼写错误和缩写等。因而微博消息文本质量有限,仅依靠现有的自然语言处理技术是不够的,需要不断地发展新的文本处理技术解决上述问题;(3)微博数据规模巨大,要求数据挖掘算法具有高效性和可伸缩性;(4)微博除了含有大量的文本数据以外,还包含大量的非结构化数据,如社交网络关系。设计合理的存储策略和索引结构对于微博数据维护和算法性能提升至关重要。微博作为信息分享的社交网络平台,每当热点事件发生,众多网络用户借助微博平台参与讨论,发表评论观点和表达自身关切。大量的个人观点经过微博平台的汇聚融合形成群体观点,成为社会舆论的重要组成。因此群体观点挖掘成为了分析热点事件、洞察大众心理和了解公众观点的重要技术手段。可是现阶段微博中存在大量垃圾用户及其消息,这会直接影响群体观点挖掘的算法性能。所以应该在预处理阶段尽可能多地过滤掉垃圾用户及其消息。另外,微博不是一个固定不变的数据集,随着新的用户评论不断产生,如何维护更新群体观点挖掘的结果成为了必须面对的问题。而数据管理技术可以帮助提升挖掘算法的执行效率和算法性能。本文对微博数据挖掘的三个基本问题进行研究,分别是反垃圾处理、群体观点挖掘和二分图数据管理。主要贡献有以下几点:1.针对微博中的反垃圾消息处理问题,提出了基于重用检测模型的垃圾用户检测算法,该方法综合考虑了消息序列中文本相关性和时间相关性,对垃圾用户的行为强度进行了有效建模。按照检测策略不同,基于重用检测模型的检测算法分为语句级别检测(SRD)和词项级别检测(TRD)。 SRD算法侧重于用户行为方式,而TRD算法着重于垃圾消息的主题信息。基于真实数据集的实验表明,SRD算法在整体性能上优于TRD算法,但TRD算法可以发现被SRD算法忽略的潜在垃圾用户。最后,采用重用检测算法对用户转发行为进行检测,基于转发关系实现垃圾用户的群体发现。2.为了研究微博中的群体观点挖掘,提出了一种基于“词项-消息-用户”的TWU图模型,该图模型结合了文本内容、时间因素和社交网络三种关键特征,对微博用户行为进行有效建模。不同于以往结合时间因素的图模型,TWU模型把时戳作为边的属性来处理,而不是单独的时戳结点。这样避免了时戳结点成为高度数结点后带来的计算瓶颈问题。相应地,基于TWU模型提出了时间敏感性随机游走算法TSRW,对词项相关性进行度量进而挖掘群体观点。实验表明TSRW算法明显优于其他基准测试算法,并且通过可视化技术展示了挖掘结果。此外,针对图数据挖掘中的增量式计算问题进行了初步的研究,因为在一个不断演变的图数据集上每次重新挖掘群体观点是不现实的。所以提出了增量式的随机游走算法,可以及时更新维护群体观点挖掘的结果。3.针对二分图的数据管理问题,总结了二分图上的基本原子操作,定义了原子操作的代数表达形式。提出了基于极大星型图的原子操作实现方法,并且理论证明了此方法的可行性。为了支持二分图上的查询和分析任务,提出了基于星型图的数据存储策略和索引结构。总而言之,本文研究了反垃圾处理、群体观点挖掘和二分图数据管理三个基本问题。实验采用真实微博数据集进行算法测试,实验结果验证了本文所提出的算法是有效的和可行的。
其他文献
<正>张家界武陵源自然风景区三千奇峰挺拔,八百秀水迤逦,一幅幅美轮美奂的桃花源山水长卷,拥有独具东方式的永恒魅力与神秘感,是陶渊明笔下的理想国,是中国人千百年来一直向
本文针对物流人才供需不能对接的问题,提出以社会需求为导向对高职物流管理专业进行人才培养模式改革,使得物流管理专业更好地满足社会需求进而解决高职物流管理专业的就业问
语言是文化的载体 ,习语是文化信息特别集中的词组或句子。习语具有强烈的文化特色 ,是语言的精华。对习语的翻译 ,翻译理论家们已经作了大量的研究 ,但是从文化特色的处理方
如何科学有效的管理和维护现有的通信资源,是关系到提高通信综合业务管理能力,合理配置通信资源,进一步提高通信传输网的保障能力的关键因素。针对目前通信资源管理、维护上
本文作者结合自己亲身笔、口译体会 ,对当代中国的翻译教学作认真的反思 ,并提出了有利于培养科技翻译人才的三点建议 ,即重视并加强汉英科技翻译教学 ,科技口译教学以及理工
破碎机是物料破碎的主要设备,广泛应用于各种工业当中。作为高能耗机器,在当前能源紧缺的背景下,对破碎机的工艺性能的研究,实现破碎机的高效、节能和环保显得十分重要。本文
目的:探讨旋转扳法和穴位推拿对青年颈性眩晕患者椎基底动脉流速的影响和两种手法的疗效差异。方法:76例表现为椎基底动脉异常高流速状态的青年颈性眩晕患者随机分为旋转扳法
简述舰船地震波场的概念及其机理;设计基于Labview的舰船地震波场实时检测系统,介绍系统组成及其工作原理;完成舰船地震波场实时检测系统水下试验,体现虚拟仪器技术在应用中
退证查询是国外海关对我国出口企业的原产地证书真实性、有效性的一种调查方式。频繁的退证查询可能导致货物在国外口岸通关受阻,无法享受关税优惠待遇等问题,甚至导致我国出
本文依据文献计量学的原理和方法 ,对 1 990~ 1 999年间发表在《中国翻译》、《中国科技翻译》、《上海科技翻译》上的 52 8篇科技翻译理论研究文章进行了分析研究 ,试图从中