面向新浪微博的链接和内容相结合的社区划分方法

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:hjkl00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中的很多系统都可以抽象为网络,如人际关系网、论文引证网、科学家合作关系网、微博用户关系网、互联网等。这些网络都具有共同特点:即复杂的内部结构,因此被称为复杂网络。已有研究表明:这些网络中包含着一些潜在的社区结构,具有社区内部节点链接稠密、社区之间节点链接稀疏的特点。通常,社区内的节点具有相似的特性,在网络中扮演着相似的角色。通过社区划分来识别网络中的社区结构,有助于人们更深入的理解网络的本质,认识网络结构与其功能的之间的关系。然而,传统的复杂网络社区划分算法普遍缺乏对链接结构和节点内容的综合考虑。现有的链接结构与节点内容相结合的社区划分方法大多是基于概率模型的方法。这类方法有着数学形式优美、可解释性强的优点,但也存在着时间复杂度高、不易理解、应用实现较为困难的缺点。本文针对这方面的研究不足提出了链接结构与节点内容相结合的快速社区划分算法KRLC及其改进算法2KRLC以及CKRLC算法,其中KRLC&2KRLC适合对指定了社团数K的网络数据集进行社区划分,CKRLC适合对K未知的网络进行社区划分。这几种算法以K-Means算法为核心思想,综合考虑了节点的内容相似性和节点的链接结构相似性,融合了几种优秀的初始节点选取方法,有效地实现了对节点含有属性信息的内容网络进行社区划分。另外本文还从社会网络的角度,实现了包括数据采集、文本预处理、网络建模、社区划分四个部分的微博数据分析框架。通过该框架的前三个部分,建立了真实的网络数据集:新浪微博用户关系网。最后利用本文设计的链接结构与节点内容相结合的社区划分算法来研究了新浪微博用户关系网的社团结构。
其他文献
物联网技术在各行各业应用越来越广泛,对物联网技术的研究也越来越多。随着物联网技术中硬件和软件的广泛应用,安全问题也日益突出。对消息传递中的通信主体进行身份验证,对
业务的快速增长和行业间竞争的加剧,使得如何提高服务质量并降低生产成本成为电信行业发展的关键。由早期基础建设管理和规划的不完善所导致的信息孤岛等问题,使得管理层无法
近年来,无线局域网(WLAN)以其安装便捷、使用灵活等优势,得到了大规模的部署。WLAN上承载的业务也覆盖了从标准互联网业务到实时业务的范围。实时业务对服务质量(QoS)有较高的
中文问句中,疑问词与中心词揭示了问句的大部分信息,因此,在中文问句处理中,识别疑问词与中心词变得尤为重要。由于中文的疑问词相对固定,数量也不多,故疑问词的识别准确率很
随着Internet网络的不断发展,消费者通过商家的网站、网络论坛、BBS以及Blog发表关于各种产品的评论信息。商家、厂家可以通过分析这些评论信息获取反馈意见;消费者可以通过
为适应电信网技术飞速发展和名目繁多的电信新业务的需要,ITU-T(International Telecommunication Union-Telecommunication Sector,国际电信联盟-电信标准局)提出了对电信网
XML在许多应用中已经成为数据交换的标准。然而,XML数据的自描述特性和半结构化特性使得XML数据中存在大量的数据冗余,这使得人们在获得XML数据带来的灵活性的同时不得不忍受
数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为
随着基因组学和蛋白质组学相关技术的发展,产生了大量的表达谱和生物大分子相互作用的网络图谱信息。生物信息学为储存、处理、分析和整合这些海量数据提供了强有力的技术支持
统计机器翻译是当今机器翻译的主流方法,这可能由于很多原因,比如准确性,可扩展性,计算效率高,能够快速移植到新的语言对和领域等等。然而,现在的统计机器翻译方法产生的翻译