异构信息网络中基于聚类的社区发现方法研究

来源 :内蒙古科技大学 | 被引量 : 1次 | 上传用户:ggy353566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现是数据挖掘的基础,通过社区发现可以了解节点在网络中的重要程度和不同关联节点,同时可以挖掘网络内部不同的节点信息,引导后续的网络推荐推荐系统以及预测网络的未来走向趋势。现有的社区发现算法的大多适用环境都是同构信息网络,因为同构信息网络节点关系单一,从直观上可以进行描述,方便理解。然而,随着网络的发展,现有的信息网络大多包含有多种类型的节点及链接关系,不同节点之间的链接关系可能代表着不同的语义信息,同一条链接关系也可能拥有不同的表述含义,我们将这种类型的信息网络称之为异构信息网络。异构信息网络对于节点的信息表达更加全面、精确,但是相对于以同构网络结构来进行社区发现将面临更多的困难与挑战。本文在借鉴现有研究成果的基础上,提出了一种适用于现有的异构信息网络的社区发现算法框架HCD_Clus(Heterogeneous Community Detection Cluster)。算法框架HCD_Clus主要包含两个部分:融合多条元路径的异构网络相似性度量算法HCBOWSMVA(Heterogeneous Continuous Bag of Words-Similarity Measure Vector Autotropism)和基于种子节点聚类的社区发现聚类算法NS-Clus(New Similarity Clus)。HCBOW-SMVA算法是一种可应用于异构信息网络的相似性度量算法,算法对CBOW进行了改进,以元路径信息作为输入实例,获取节点向量以及元路径权重,再根据节点自身的向量属性获取节点间的相似度,融合多条元路径得到最终的相似性度量结果。NS-Clus算法首先通过节点重要度以及二阶邻居来共同进行了种子节点的选取,利用模块度增量和基于HCBOW-SMVA算法所得到的节点间的相似性进行了种子节点的社区初始化分和非种子节点的聚类,得到了最终的社区个数;其次利用节点属于社区的可能性,即隶属度的概念来将剩余的非种子节点加入社区;最后通过社区重构,利用改进后的标签传递算法的思想来优化社区,同时发现社区中可能存在的重叠节点。本文的实验环境主要是学术网络DBLP和ACM数据集,这两个数据集是典型的异构网络数据集,在相似性指标验证阶段采用AUC和precision以及NMI作为评价标准,将本文提出的异构信息网络相似性指标(HCBOW-SMVA)与传统相似性指标进行比较,验证其有效性,实验结果表明,算法在Top-k的查询、相似性的准确度验证和聚类结果的有效性验证三个方面都表现良好,说明本文算法对于异构信息网络相似性度量是可行的、有效的且准确性较好;聚类算法NS-Clus与社区发现中的一些经典算法来进行对比,在归一化互信息NMI以及模块度Q来进行度量评价,实验结果表明了不论是在聚类精度上还是所得到社区的结构强度上,本文提出的NS-Clus算法都准确率更高,社区结构更稳定,性能更好,同时,该算法也能有效的发现社区中所隐藏的重叠节点。
其他文献
随着数字化时代的到来,中国通过"中国制造2025"发展战略,以创新驱动发展来推动中国制造业转型升级。相应地,辽宁省装备制造业作为国家重点扶持工业项目,正处于快速发展进程中
社交网络平台因其互动性优、参与性强的特性正影响着人们生活、思维和行为方式,成为互联网用户降低互动成本和时间成本的重要渠道。由此带动的社交网络行业也正趋于成熟饱和,
随着计算机技术地不断发展,给工程建设的各个领域带来了翻天覆地的变化。从手绘图纸到CAD软件绘图的介入,实现了建筑业的第一次“甩图板”革命。如今,随着现代工程各领域地不断发展,各行各业内部竞争日益激烈,建筑物的立面形式造型各异,同时工程项目的各参与方信息相互独立,工程建设过程中工程变更更是家常便饭,传统的设计方法已不能再满足当前工程各领域业发展的需要。BIM技术的诞生给工程建设带来了新的设计理念。B
在语文写作教学中,一直都是班集体统一授课,缺少针对写作有困难的学生即“写困生”的教学设计。而因材施教是有效的教学方法之一,本文以初中“写困生”为特定群体,以思维导图
<正>所谓的音质主观评价,指的是在规定的条件,由听音者的主观感受来评价电声产品和系统的声音质量水平。在这个主观评价检测系统当中,节目源就是检测用的信号源,听音者的耳朵
目前,针对扭转梁式后悬架的研究工作主要集中在两个方向:一是针对整车转向特性的悬架系统优化研究;二是针对扭转梁悬架自身强度及疲劳耐久的分析研究。扭转梁式悬架自身的振