基于关系网络的微博话题挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wlp00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博得到了飞速地发展。用户可以在微博中进行交友、聊天、发布状态,同时还可以发起话题,评论话题等。分析和挖掘微博的热门话题具有重要的意义。目前微博话题挖掘通常采用基于文本的挖掘方法。微博里的文本信息多是短文本,具有数据稀疏、噪声大的特点,给分析带来了一定的困难。微博是一种基于关系而存在的社会媒体,关系密切的用户往往关注的是相似的话题。纯粹地从文本分析的角度去研究微博话题,效果并不理想。因此本文从微博话题的关系角度入手,提出了一种微博话题的关系网络模型对微博话题进行挖掘。本文使用该微博话题关系网络模型实现了基于关系网络的微博话题挖掘系统,并取得了一定的效果。本文提出了基于关系网络的微博话题表示方法。通过对微博话题进行分析,发现话题在用户之间进行扩散的过程中,用户是有状态的,并且这些状态会发生改变。导致用户状态改变的原因是用户对微博进行了操作,用户的操作还使用户之间产生了关系,微博话题关系网络正是根据这些关系被提出的。在微博话题关系网络中,网络的节点表示用户,网络的边表示用户之间在话题中存在的某种关系。本文同时给出了微博话题关系网络详细的构建规则。在构建话题关系网络后,对关系网络进行了分析,包括网络中的介度中心数、紧密中心度以及网络聚类系数等,并且发现微博话题的关系网络中存在着某种结构特性。本文提出了一种基于关系网络的微博话题挖掘方法,并针对四个新浪微博的真实话题进行了微博话题的挖掘。这些话题分别是“北京高考改革”、“跨省就医报销”、“养老金”和“延长缴费年限”。在对微博话题进行挖掘的实验中还使用了目前研究人员使用的基于文本的微博话题挖掘方法,并将两种方法的挖掘结果做了对比。实验结果表明基于微博话题关系网络的微博话题挖掘方法比基于文本的挖掘方法F值高10%。本文提出了一种基于高斯随机数的可视化显示策略,并运用这种策略将微博话题的挖掘结果进行了可视化。基于关系网络的微博话题挖掘方法和基于高斯随机数的可视化显示策略已经成功应用到基于关系网络的微博话题挖掘系统当中。
其他文献
数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式的非平凡的处理过程。序列模式挖掘作为数据挖掘的一项重要研究内容,用于从各
基因芯片技术是联合了生命科学与信息科学这两大学科研究成果的一项崭新技术,现在已成为大规模提取和探索生物分子信息的高效方法之一。同时基因芯片技术也逐渐成为生物信息
本文提出了一种基于VB的化工设备标准件图库的开发研究,并完成系统软件的设计,建立了化工设备标准化零部件数据库,实现了设计、绘图的自动化。该系统在给定基本参数条件下,通过人
随着互联网规模的迅猛发展以及网络应用种类的不断增多,研究网络行为和性能成为了一项艰巨而又重要的任务。网络模拟作为研究网络行为性能的一种工具,发挥了重大作用。传统的
Internet和Web技术的发展为现代小区物业管理系统提供了新的管理理念和技术支持。目前,面向Web的应用程序开发的技术有很多。本文选择J2EE技术框架下的Struts web架构来实现
随着Internet的发展和应用的深入,对它的研究显得越来越重要和必要。模拟作为一种不可替代的网络研究方法,在网络规模的扩展和网络性能评价的准确性方面临了更高的挑战。研究
卫星在轨寿命预测是直接影响航天设备建设与发展的重要问题,而卫星寿命预测涉及其关键暴露件材料性能退化规律的研究,所以卫星关键暴露件在轨性能退化规律预测就变得至关重要
原来的学校和家庭只能通过家访和家长会才能交流,这样的沟通方式极其不便。家校通系统是一个融合了手机短信、Internet 等多种先进的IT技术的新一代家校联系工具。它提供了一
在信息化时代,信息瞬息万变,信息量急剧增加,在信息系统中,单靠人工管理编码对象、编码规则和码表的修订发布都是非常烦琐和困难的。对信息进行分类编码,需要以信息分类编码
随着银行不断加强用户自助存取款业务,自助取款机得到越来越广泛地使用。与此同时产生的自助取款机犯罪案件数量也明显上升,而此类案件的犯罪人员往往戴有墨镜、口罩或者帽子