基于社会网络分析的Web社区发现

来源 :兰州交通大学 | 被引量 : 4次 | 上传用户:cj1314810814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是继博客之后迅速发展起来的一种新兴网络社交平台,作为新兴的媒介,在中国社交网络中占据着主要地位。它以“碎片化”的信息渗透到社会生活的各个领域,掀起了中国社会信息传播的微博热。在微博发展过程中逐渐形成了不同专业、兴趣的微博社区,这些社区是非常重要的组成部分,不仅能为用户提供可靠的、有价值的和及时的信息,方便用户交友,还能为商业和传媒带来新的传播方式。如何能发现微博中社区显得至关重要。社区发现主要以社区的方式把网络划分为若干群组,以加速微博用户自发聚集从而形成社区的过程。传统社区发现算法主要通过分析页面的链接结构和页面内容,基于分层的方法来划分社区,社区结构通常是树形的。但随着互联网技术的发展,基于单一特征的传统社区发现算法不再适用于新的社交网站。近年来,随着图论及数据挖掘技术的发展,很多分类聚类的方法也被用于Web社区发现,许多针对特定的社交工具,如博客等。基于以上背景,本文在总结已有Web社区发现技术的基础上,引入社会网络分析方法,并综合考虑微博用户的主题和链接关系,提出了一种基于社会网络分析的微博社区发现方法。首先,论文分析了微博的结构和特点。微博和其他社交工具最大的不同在于采用了全新的"following"社交模式,并且博文“碎片化”,这些机制更能促进交友和交流。其次,根据微博属性和社区特征对微博建模。研究表明,新浪微博社区满足“小世界”效应,存在幂律分布,用户之间包含主题同质性和链接关系,符合社会网络模型的特征。因此,论文选用社会网络模型对社区建模。再次,设计实现了基于主题与链接分析的微博社区发现算法。标签传递算法是一种半监督的分类算法,执行速度快,运算量小,但在计算节点间边的权重时未考虑节点紧密度,影响了划分精度。本文分析了微博用户的链接关系和博文主题相似性,通过对链接相关度和主题相关度推导出用户总相关度公式,以此作为边的权值来计算节点间的传递概率,然后运用改进的标签传递算法对社区分类。最后,利用社会网络分析方法对划分的社区进行定性和定量的分析。利用"Pajek"社会网络分析工具分析社区中的各个参数,然后对其仿真,进行可视化,进而得到对社区理性和直观上的认识。
其他文献
随着信息技术的飞快发展,信息系统中积累了大量数据,急需一种有效处理信息的工具,可以在海量数据中提取、挖掘出隐含在背后的不为人知的、可为人们所用的、有价值的知识。1982年
近几年,在信号处理领域出现了一种新的数据采集理论“压缩感知”(Compressed Sensing, CS),该理论在数据采集的同时实现压缩,突破了传统奈奎斯特采样定理的限制,为数据采集技术带
近几十年来,随着我国经济的发展,交通运输业得到了空前发展,交通运输业的发展一方面促进了物质交流和人员往来,大大缩短了出行的时间,提高了工作的效率;另一方面交通拥堵问题,
学位
顾客的购物时浏览商品的时空数据对于商家进行商业决策具有重要的参考价值。在电子商务中,商家通过记录顾客购物时的浏览记录,可以分析和推测顾客的偏好和习惯。利用这些数据
近年来,随着Internet的普及,网络上出现了大量信息。这些信息中,有些可以很容易就能获取到,而有很多信息都“隐藏”在网络的角落中,使得用户很难得到。针对这样的情况,个性化推荐油
作为一种清洁的可再生能源,风能已经成为世界各国关注的热点,我国对风能的开发利用也给予了高度的重视。由于风具有很强的随机性和长期不可准确预测性,所以风力发电接入电网后会对整个电网的电能质量和电力系统的稳定运行产生重要的影响。为了保证电力系统稳定运行,合理安排调度计划,增强风电竞价上网的能力,需要对风电场短期功率进行准确预测。论文在研究风电机组输出功率特性的基础上,研究分析了多种智能预测算法,针对风电
作为NGN(Next Generation Network,下一代互联网)的核心组件,IMS(IPMultimedia Subsystem,IP多媒体子系统)正在成为IP固定网与移动网络的新一代融合架构,而不同网络间的融合,将面临严
当今企业为了适应复杂多变的、激烈的市场竞争需求,一方面,企业在执行具体的业务流程时,企业内部各部门必须尽可能有效地协同工作以满足企业客户所期望的服务质量和时间约束要求
大宗商品电子交易是投资行业的一个新兴门类,由国家商务部监管。它通过电子网络进行交易时,可以采用计算机集中竞价、统一撮合、统一结算、价格实时显示的交易方式,为大宗商