基于概率生成模型的社区发现和网络数据分类方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zengquaner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客观世界中的许多系统都由一些相互联系的实体所组成。而网络提供了一种抽象的形式来描述这类系统。随着信息技术的发展,人们有更强的能力去观察客观世界并且将观察结果记录为数据。于是,各种各样的网络数据大量涌现,如万维网、在线社会网络、论文引用网络、科研合作网络等等。社区发现和网络数据分类是在网络数据上挖掘隐含信息的重要技术之一,其实质就是基于网络中的链接对节点进行聚类和分类。它在研究网络的功能组成、实体聚类与分类以及网络数据存储等方面有着广泛的应用。近几年来,社区发现和网络数据分类问题受到研究人员的广泛关注,一些解决方法相继提出。然而,现有的方法并不是在所有类型的网络数据上都能够取得良好的效果。例如,基于模块度优化的社区发现方法可能会在一些没有任何社区结构的网络上也能发现社区结构;基于同质性假设的网络数据分类方法在低同质性网络上分类精度较低。概率生成模型可以依据模型假设对数据进行建模,然后通过统计推测的方法将模型拟合到现实数据上,从而推测出现实数据的潜在特征。所以基于概率生成模型的方法只依赖于模型假设和实际数据,它具有极大的灵活性,采用不同的模型假设可以适应不同类型的数据。因此,本文运用这一技术,以提高社区发现和网络数据分类的准确性为目标,对社区发现和网络数据分类问题进行深入地研究,取得了如下成果:(1)提出基于节点社区模型的非重叠社区发现方法。从节点社区的思想出发,认为社区由节点组成并且一个节点只属于一个社区,用非参数化方法对网络和节点的社区建立概率生成模型。该模型的基本思想是:节点与另一个节点之间有边相连,是因为这个节点所在的社区想要同另一个节点相连接。通过吉布斯采样方法求解模型中的潜在变量,可以计算每个节点的社区。由于采用了非参数化方法,所以社区个数可以在模型求解的过程中自动确定。通过人造网络和真实网络上的实验表明此方法是一个有效的非重叠社区发现方法。(2)提出了基于边社区模型的重叠社区发现方法。从边社区思想出发,认为社区是由边所组成的,对网络和边的社区建立概率生成模型。利用非参数化方法来求解模型参数;并且利用模型参数计算出节点属于每个社区的概率,从而发现网络中的社区。由于采用了边社区思想,使得一个节点可以属于多个社区。此外,非参数化的模型求解过程,使得社区个数可以在模型求解的过程中自动确定。人造网络和真实网络上的实验表明此方法能够有效地发现网络中的重叠社区。此外,此方法不仅可以发现节点的所属社区,还能计算出它在每个社区的参与程度。(3)提出了基于概率生成模型的网络数据分类方法。针对低同质性网络的特点,提出节点的类别传播分布的概念并且用它来描述低同质性网络中两个节点相连的概率。在此基础上,提出了基于类别传播分布的网络概率生成模型。在模型中将被分类节点的类别作为潜在变量,网络的边和已知类别节点的类别作为观察数据,通过将模型拟合到观察数据上,计算出潜在变量的取值,从而得到被分类节点的类别。在真实网络数据上的实验表明此方法在低同质性网络上有更好的分类性能。(4)针对网络以及节点社区和类别的可视化展示问题,开发了一个基于节点属性的网络可视化工具:ADraw。在节点布局上,ADraw采用基于属性的多阶段聚类布局算法,该算法除了满足一般聚类布局中同类节点相互靠近的要求外,还增加了“拥有多个属性取值的节点应该位于相应的单个属性取值节点群之间”这一布局准则。在节点着色上,ADraw采用包含不同颜色扇形块的饼图来表示拥有多个属性取值的节点。用基于属性的节点着色算法计算扇形块的位置,该算法保证“扇形块尽可能地靠近有相同颜色的节点群”。
其他文献
林同济晚年致力于莎士比亚的教学和研究。20世纪80年代,向国际莎学界介绍中国在莎学研究上的成果。1963年完成重要英文论文"Sullied" is the word:A note in Hamlet criticis
高校二级学院的科研秘书作为连接学校科研管理部门和学院教师及科研人员的媒介,发挥着举足轻重的作用。作为高校二级学院的科研秘书明确科研秘书的职责和素质要求,将有助于科研
针对传统PID参数整定方法存在精度低、稳定性差,且被控制系统易受噪声影响等缺点,提出一种基于改进搜寻者优化算法(ISOA)的PID控制方法。采用Z-N方法得到的PID参数整定值指导
红外搜索跟踪系统在武器系统中发挥着越来越重要的作用,对红外弱小目标的远距离检测技术是保证整个系统性能的关键。随着未来作战对象的光电隐身性能不断提升,作战对象的可检
本文主要利用1998年~2007年的投入产出数据,建立C^2R模型,对四川省装备制造业进行投入产出效率分析,找出其发展的优势,以及相对不足,为四川省装备制造业可持续发展的优化提供发展方
目标检测和PET目标重建是当今计算机科学领域研究的两个热门问题。目标检测是确定目标或者其成分的位置轮廓以及姿态的过程,因而成为很多重要计算机视觉问题的前提和基础。PE
面对“双一流”建设的新使命和教育综合改革的新要求,高校各级党组织如何适应中国特色现代大学制度建设的要求,将党的政治优势和组织优势转化为促进高等教育内涵发展的强大动
[目的]探讨护理安全风险防御机制在危重急诊抢救过程中的作用。[方法]选择2015年1月—2016年1月急诊科接诊的危重病人150例为研究对象,随机分为对照组和观察组,观察组75例危
以乳化单体加料的种子聚合技术,合成了聚丙烯酸乙酯/聚苯乙烯核壳型复合聚合物乳液.确定了种子聚合过程中乳化剂补加量与聚合单体量之间的定量关系和合理的单体加料速率.该体
乐视网的所得税与盈亏疑云一直受到社会各界的广泛关注,现从乐视网2015和2016年度的财务报表提供的数据入手,阐述乐视网通过确认递延所得税资产,增加所得税费用,进而增加利润