带节点信息的DCBM局部社区发现算法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:jaslxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关于网络数据的分析科学结合了图论、统计学、机器学习等各方面的知识,是数据挖掘等领域的重要研究方面。目前,学界对于各类复杂的社交网络模型都有了较为完善的研究,提出了许多科学有效的模型,譬如随机块模型(Stochastic Block Models,SBM)、度修正的随机块模型(Degree-Corrected Block Models,DCBM)。与此同时,众多学者基于某些网络结构的特点,提出了“社区”的概念。他们用“社区”来刻画网络中某些节点的集合。随后,学者们受到“社区”这一概念的启发,逐步推出了一些基于图分割、图聚类等方向的算法。通过以上算法,学者们可以解决许多社区发现问题。但是目前的大部分社区发现问题算法并没有兼顾到以下两个问题,或者仅仅只对其中某一方面进行了优化:1.随着社交网络数据的变化和发展,网络数据规模不断扩张。这影响到了网络结构的存储,算法的计算效率以及基于全局优化维度的求解难度。2.许多算法都只是关注社区内节点之间以及社区间节点之间的连接概率,而忽视了节点本身所带有的信息。在本研究中,本文选择了一种常见的基于统计推理的模型来刻画网络结构,即DCBM。DCBM由传统的随机块模型改进而来,引入额外的参数序列来区分社交网络中不同节点的社交能力,是一种基于生成图的随机模型。在DCBM的基础之上,本文重点研究带节点信息的局部社区发现算法,以及节点信息对于模型和算法的影响,同时尝试融合节点信息以及局部社区发现算法到DCBM模型当中。本文基于Gao(2016)的似然比检验思想,对其算法进行了改进。算法将节点信息的分布信息纳入到网络邻接矩阵的生成以及似然函数的构造之中。具体而言,算法实现分为两个阶段:第一阶段为初始化阶段,算法使用传统的DCBM模型,结合了网络中的节点信息,对每个节点进行社区标签判断的时候,通过对邻接矩阵进行谱分解以及对特定的特征向量矩阵进行聚类来实现初始社区标签的赋值。第二阶段为修正阶段,算法对于网络中的各个节点按照社区规模大小进行归一化处理,同时对各个参数进行估计。通过计算每个节点与其他节点的边连接分布,算法对每一个单独节点进行局部计算,并构造似然函数,根据不同情况下的似然函数大小来判别社区归属。由此,最终转化为一个假设检验问题。最后,为了验证改进算法的有效性,本文基于模拟生成的网络数据以及真实世界的网络数据两种数据源进行实验。通过与不带节点信息的算法以及其他局部社区发现算法的对比,本文得到带节点信息的局部社区发现算法对模型的社区发现效果有所提升的结论。其中,对比算法本文选择了Feng(2016)提出的NSBM算法。基于模拟分布数据的实验结果表明,尽管算法初始阶段可以得到较好的准确率结果,但是修正阶段准确率得到了进一步的提升。改进后的算法要比单独的局部社区发现算法确准确率算法要更优。同时,改进的算法综合表现综合来看优于对比算法的表现。另一方面,从真实数据集的实验结果发现,节点信息对于算法能带来较大的效果提升;本文设计的算法优于对比算法的表现;数据集的稀疏程度会影响算法修正阶段的效果提升表现。
其他文献
汽车工业属于国民经济中的支柱型产业,同时它也与人们的生活息息相关,已经成为现代社会必不可少的组成成分。但是,以石油为燃料的传统汽车工业虽然为人们提供了便捷、舒适的交通工具,但也同时增加了汽车尾气对城市空气的污染程度。更关键的是,它加剧了国民经济对化石等不可再生能源的依赖,进而加深了能源生产与消费之间的矛盾。在这种国际背景下,各国都在千方百计地降低汽车的燃料消耗和致力于代用清洁燃料和新能源的开发研究
学位
近年来我国经济形势稳中向好,国内互联网普及率逐步提升,互联网已然成为大众通讯、社交、学习、娱乐和购物等的必要途径。与此同时,大批社交媒体平台也借助互联网的盛行走入公众视野,为民众提供了交流的新平台。新时代网民的生活方式、购买习惯也因互联网形式的更迭而发生着巨大的变化。一方面,传统的电商平台如淘宝、京东等开启了网友们线上购物的新旅程,成为了各大品牌方和商家的新营销主阵地,时至今日已然发展得较为成熟,
学位
<正>笔者有幸跟随国医大师刘嘉湘教授侍诊,现将其辨治皮肤T细胞淋巴瘤难治性瘙痒病验案1则报道如下。何某,男,61岁。既往有左肺腺癌Ia期手术史(2015年11月)。2019年8月28日初诊:主诉:躯干反复皮疹伴瘙痒3年余,泛发全身1年半。2016年7月在无明显诱因下出现躯干部反复皮疹伴有瘙痒,西医口服及外涂药物效果均欠佳,皮疹范围、瘙痒程度逐渐加重,于2018年10月在外院行PET-CT、
期刊
纵隔肿瘤是指在纵隔内生长的肿瘤,属于罕见肿瘤,其真实患病率难以估计,但近些年随着肺癌筛查的进行,越来越多的纵隔肿瘤患者被发现。大多数纵隔肿瘤的形成病因不明确,形态性质各异、复杂多样,多数患者无典型症状,临床上无统一的诊疗指南,这些都对医生的诊断提出了挑战。临床上,医生需要在术前对肿块的性质进行准确的诊断,才能够评估手术风险、制定合适的治疗方案。而培养这样一个经验丰富的外科医生需要漫长的周期和大量的
学位
近年来,随着公众金融管理意识的逐步增强,加之金融市场行情火爆,我国基金业发展迅速。中国基金业协会数据显示,从2015年至2020年,我国基金总规模在数量、管理规模和份额规模方面均有显著性提升。随着基金业快速发展,基金收益预测和净值估计问题引起金融市场多方参与者的关注。基金投资者对估值不准的容忍度低,因其择时行为受短期波动影响,申购和赎回操作常参考估值结果;基金销售平台为提升用户体验和使用便捷性,致
学位
金融行业的资金融通能够给各行各业带来助推力,也能给个人带来便利。尤其是在互联网和金融结合的今天,金融服务的获取渠道得到了极大的拓展、资本的分配效率也得到了极大的提升。但是无论是在传统金融行业,还是在新兴的互联网金融领域,都时刻面临着风险。信贷,作为金融行业十分重要的组成部分,是各大金融机构主要的盈利方式。央行在2021年年底的货币政策报告中写到:要保持货币信贷总量稳定增长;2022年1月新增贷款3
学位
近年来,概率销售的应用日益增加,潮玩盲盒的热潮引起了人们对概率产品的关注。在其应用的早期,商家采取既单独出售每款产品,同时提供概率产品的模式。早期相关文献也提出了对该种模式的解释:可以实现价格歧视、市场细分的功能,同时又能更好地应对需求的不确定性。然而,在近期,概率销售有了新的营销模式——商家只供应概率产品,如实际中POPMART的盲盒、Dota2的宝箱等等。在新模式下,交易概率产品的二级市场应运
学位
为了在竞争日益激烈的汽车行业中提升品牌绩效,越来越多的汽车制造厂商通过融入新的技术或是修改车款设计来满足用户需求,从而来保持自身的竞争优势。因此,相比于耗时耗力的新品研发,车型改款已经成为一种市场上常见且流行的做法。每次的改款事件都会对汽车销量产生深远的影响,特别是大型的改款事件。如果企业无法预测改款的损益及事件的后续影响,就必须要承担一定的营销风险,甚至承担销量和名誉的损失。就通用汽车在中国全面
学位
线性规划是数学规划中最为基础也是最为重要的一个分支,在今天的世界里,线性规划已经成为了工业排产、资源调度、军事作战、动态定价乃至金融决策等行业的重要应用工具。随着现代计算机不断发展,如今线性规划问题需要决策的变量以及需要满足的约束数目已经上升至亿数量级,求解难度与日俱增。因此,如何高效、稳定、合理的求解线性规划问题成为了工业界重要的课题之一。其中,最为基础的就是使用商业求解器对这些数学规划问题求解
学位
区块链是一种分布式账本技术,存储在其中的交易记录具有防伪、不可篡改、可追溯等特性,最初是由比特币带来的。目前,以比特币为代表的区块链技术不断发展,整个加密资产市场总市值已达2万亿美元,其中智能合约平台、De Fi、NFT、DAO、Web3等技术不断涌现,相关的投融资事件不断增加。然而,目前世界范围内针对这一新兴市场暂无完善的监管体系,故而在加密资产市场中各类骗局层出不穷,投资者血本无归的报道屡见不
学位