社会网络社区识别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jojoy9912004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展及其在社会各个层面的不断深入和普及,社会计算继物理计算和生物计算之后,逐步成为科学计算研究的焦点和前沿课题,社区识别是社会计算领域重要的基础性研究问题,吸引了来自计算机科学、社会学、物理学、生物信息学及管理学等多领域科研人员的广泛关注。与网络的无标度特性、小世界特性等基本统计特性相并列,社区结构是社会网络中真实存在的重要拓扑属性之一,社区识别的研究目标在于揭示社会网络中普遍存在的社区结构。社区的识别有助于帮助人们发现网络中隐藏的规律,从而理解网络的功能,进一步对网络的行为进行预测并有效地指导网络的演化,驱动网络向着有利于人类生存的方向发展。  本文针对社会网络的社区识别问题展开研究,整体上采用一种递进式的研究路线,从静态社区识别的基本问题入手,采取多种方法对非重叠、重叠社区进行分析,进一步过渡到动态社区识别的研究,有效地处理随时间演化的网络社区识别问题。本文所提出的算法是对现有方法的改进、完善和发展,对社区识别方法体系有益的扩充,力求为社会网络结构分析的相关理论研究及技术应用提供基础性的支持。具体来说,本文主要从非重叠社区识别、重叠社区识别、基于链接的社区识别及动态社区识别等四个角度对社会网络社区识别技术进行深入探索,提出相应的社区识别模型,在真实社会网络和人工基准网络上进行测试,并与多个同类型的经典算法进行对比分析。主要研究内容如下:  (1)首先研究非重叠结构的社区识别。GN算法的提出,引领了社会网络社区识别研究的热潮,很多算法从不同的角度、使用不同的模型进行探索,产生了一些经典的算法并得到了广泛的应用。但是随着互联网的发展,大规模社交网站迅速推广,海量数据涌现出来,对社区识别算法的要求越来越高。大多数非重叠社区识别使用网络全局结构,计算复杂度高,还有些算法需要根据先验知识预设社区的数目等信息。因此,需要在降低算法复杂度、减少先验知识约束等方面对算法加以改进。为了能够降低算法复杂度,提高效率,本文提出一种节点重要性评估方法,选出网络中的部分种子节点,围绕种子节点建立初始社区,采用适应度函数对初始社区进行局部扩张,为未知社区归属的节点找到其最佳社区归属。该方法不需要任何先验知识,并且具有较高的执行效率和准确度。  (2)在现实生活中,人们往往具有多重属性并同时活跃在多个社区内,如某一家族的成员会拥有其朋友圈,同学圈,工作伙伴圈等,某一研究人员可以活跃在多个不同的研究领域,特别是随着在线社会网络的发展,通过社交网站建立起各类兴趣圈子,这些圈子之间的成员均会出现重叠现象。因此,在社会网络中寻找这类具有重叠节点的社区结构更具现实意义。重叠社区识别问题也已有一些研究成果,但在算法稳定性、准确性及重叠节点的比率的控制等方面还存在较大的提升空间。本文提出一种基于拓扑势的局部化重叠社区识别算法,适用于节点的重叠度相对较低的网络。首先,引入拓扑势描述节点间的相互作用,以动态设定各节点的影响力阈值;其次,提出一种节点局部相似性的度量指标,生成相似度矩阵;然后利用节点的影响力阂值动态约束相似度矩阵,建立以动态相似度矩阵为输入的标签传播算法。大量的实验表明,算法既以较高的精度探测出重叠社区,又保持了标签传播类算法执行效率高的优势。  (3)基于节点结构的社区识别已有大量的研究成果,但是,一些研究人员注意到基于链接的方式在识别重叠社区时有着天然的优势,尤其是针对节点的重叠度相对较高、网络链接密度相对较大的网络。因此,将研究对象由节点转向链接成为重叠社区识别的有效手段。但在研究过程中发现,现有链接社区识别算法容易出现节点的过度重叠及孤立社区问题,为了避免这些问题,本文提出一种基于链接相似性聚类的重叠社区识别算法。该算法从多角度对链接间的相似性进行度量,发现某些度量方法在链接预测领域取得较好效果,但并不适用于社区识别。通过比较多种建模方法,选择最适合社区识别的一种,并采用Ward聚类的方法建立链接层次树,利用重叠模块度标准截取最优划分。然后将非重叠的链接社区还原为节点社区,此时自然对应着重叠结构的节点社区,进一步通过重叠率限制阈值进行优化。参数分析及实验验证表明,所提出的算法不仅执行效率较高,而且在同样基于链接的社区识别方法中执行准确度占有一定优势,有效地避免了过度重叠社区的存在。  (4)目前多数算法均是针对静态社会网络社区识别而设计,但社会网络是随时间不断地动态演化的,为了实现对社会网络信息的实时挖掘,需要研究社区演化的分析方法。现有一些动态社区识别方法往往通过在不同的时间片上反复执行静态算法来跟踪网络的演化,这类方法难以适应大规模数据快速变化的网络。大规模动态社区识别问题成为该领域最具挑战性的研究热点。因此,本文从网络增量的角度考虑社区的演化,提出了增量式动态社区识别算法。首先,以节点的局部拓扑结构为研究对象,提出了基于随机游走的社区识别算法,节点的聚类方向不需经过全局计算即可获得。然后通过分析网络在相邻时刻的变化,以四类动态事件(节点增加,节点消失,链接增加,链接删除)来刻画演化过程,并设计相应的局部调整策略自适应地实现动态社区识别。
其他文献
随着3G网络的商用部署和无线带宽的提高,无线网络的带宽将得到质的改善和提高。WAP、MMS、流媒体业务等极具潜力的移动数据业务将在今后几年取得巨大成功,数据业务将是3G时代
学术社会网络是通过学术活动构建起来的网络,学者组成了网络中的各个节点,学者之间的合著关系构成了网络中的边。随着学术研究越来越快的发展,学术社会网络的规模也逐渐增大
随着计算机和网络技术的不断发展,传统的无线网络已经不能满足人们的需求,因此高效快捷,组网灵活的无线Mesh网络应运而生。它是一种新型的无线通信网,由于其各个方面的优势,
量子计算具有并行性、指数加速和指数级存储容量等特征,已经成为当今世界各国紧密跟踪的前沿学科之一。量子理论中有关量子态的叠加、纠缠和干涉等特性,有可能解决经典计算中的
随着全球互联网的迅速发展,以因特网技术为主导的数据通信在通信业务总量中的比例迅速上升,如一些新的多媒体通信不断涌现,可视电话、视频会议、多媒体远程教育等。在这些应
随着科技进步,各种图像捕获设备层出不穷,图像在人们的生活中使用的也越来越广泛。但同时,由于数字图像便于修改,导致它的内容安全性逐步降低。针对这个问题,人们提出各种解
大数据时代,个性化推荐已经成为电子商务网站中的一个重要研究方向,它可以快速发现和匹配用户的喜好信息。用户信任在推荐系统中有着不可忽略的作用,然而传统的电子商务网站
视频中的目标跟踪是计算机视觉领域中富有挑战性的课题之一,在视觉导航、安全监控等领域有着广阔的应用前景。开发鲁棒的跟踪算法也具有重要的理论意义。考虑到实际环境中的
交互式系统设计主要包括用户界面的交互设计和用户界面软件架构的设计。已有的用户界面交互设计和软件架构设计是为满足办公人员的需求产生的,旨在满足用户办公有效、高效的
审计领域己经从传统的手工审计过渡到计算机审计,生成了大量的审计数据,但往往大量的数据无法产生可信的信息。数据质量是决定数据好坏的关键,只有良好的数据质量才能帮助人