面向节点更新机制的标签传播算法的优化与应用

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:xeno
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂网络存在于现实生活中的方方面面,例如合作作者网络、社交网络、俱乐部网络等。复杂网络存在一个重要性质,那就是它的社区结构,研究人员可以通过在复杂网络中挖掘其社区结构来加深对复杂网络功能和拓扑结构的理解,社区发现应运而生。社区发现可以用在很多领域,如市场营销、生物学、医学、计算机科学等等,这也吸引了大批研究人员提出自己的社区发现算法。社区发现在实际生活中也有重要应用,例如对微博、小红书、豆瓣等社交网络进行社区发现,可以根据社区发现的结果对用户做个性化推荐或精准营销;对蛋白质交互网络做社区发现,可以帮助预测未知蛋白质的作用;对计算机科学领域的论文作者网络做社区发现,可以结合关键词判断某一领域都有哪些专家学者,等等。目前社区发现算法可以依据使用信息的类型分为两大类:全局社区发现算法和局部社区发现算法。全局社区发现算法是最早出现的社区发现算法,但是这类算法需要预先知道复杂网络的全局信息,这在实际应用中有一定难度,所以出现了局部社区发现算法。标签传播算法(Label Propagation Algorithm,LPA)就是局部社区发现算法中最常见的一种,它的优点是线性复杂度和操作简便,在大型复杂网络中表现良好,但是节点更新顺序和标签选取时存在随机性,导致社区划分结果稳定性差,可能出现标签震荡、怪物社区等问题。针对标签传播算法节点更新的随机性导致的怪物社区问题和标签选取的随机性导致的标签震荡问题,本文提出了一种结合节点重要性和节点相似性的标签综合影响力指标Combined Influence Index(简称CII),并在这一指标的基础上提出了一种基于节点重要性和节点相似性的标签传播算法Importance and Similarity-based Label Propagation Algorithm(简称ISLPA)。该算法首先以半局部中心性(Semi Local Centrality,SLC)作为节点重要性衡量指标对复杂网络中的节点排序,选取SLC高于均值的节点放入种子节点集,并为种子节点初始化唯一的标签。对复杂网络中的节点按SLC降序更新,在更新节点标签的迭代过程中,从邻居节点的所有标签中选取CII最大的标签更新节点。如果在一次迭代中不再改变任意网络中的节点或者达到最大迭代次数,则迭代过程停止。迭代停止后,根据节点标签对复杂网络进行社区划分,标签相同的节点属于同一个社区。随后,本文基于Spark实现了ISLPA算法的并行化。通过在LFR人工基准网络和真实网络上与LPA、SLPA和NIBLPA算法做实验对比分析,本文提出的ISLPA算法解决了标签传播算法存在的稳定性问题,标准互信息(NMI)比传统的标签传播算法LPA提高了近一半,比改进算法SLPA提高约17%,比同样使用节点重要性和节点相似性的标签传播算法NIBLPA提高了约10%;模块度比LPA和SLPA提高了约20%,比NIBLPA高了大约9%。本文实现的并行化ISLPA在不降低ISLPA算法的划分质量的同时,将运行时间减少约一半;与同样基于Spark实现并行化的标签传播算法PLDLS相比,并行化ISLPA在十万级别的大规模网络的表现更好,社区划分效果的模块度提高了10%左右,运行时间减少了约20%。特别地,本文在验证了算法的有效性后,将并行化ISLPA算法应用到大规模真实复杂网络微博中,同样取得了不错的效果,社区划分的模块度是LPA算法的3.3倍,是NIBLPA算法的3.6倍,是PLDLS算法的2.1倍,运行时间也比非并行化的LPA和NIBLPA减少约一半。
其他文献
海冰不仅是全球气候变暖的警示器,同时也是航海的大敌。近年来,利用遥感数据来观察海冰已成为海冰研究的主要方式。图像分割技术作为高分辨率可见光遥感海冰图像研究的基础,其分割效果的好坏将会直接影响到后续研究的结果。由于高分辨率可见光遥感海冰图像的分辨率较高,以像素为单位的分割算法通常分割成本过高,且分割效率低。另一方面,高分辨率可见光遥感海冰图像光谱信息相对不足,部分区域颜色较暗,采用传统的分割算法会将
学位
随着信息技术的发展,线上教学平台和传统课堂都产生了数以万计的数据。由于教育环境的特殊性,这些数据通常具有庞大、多维、异构的特点,不仅包括教育管理系统中的学生基本信息、课程参与、成绩统计、图书阅览等异构数据,还包括了学生使用学习平台所生成的大量点击流数据,如交互数据、学习行为数据等多模态数据信息。虽然这些教育数据中蕴含了大量学习行为信息、交互信息、学习效果评价信息,但是对于没有掌握数据挖掘和数据分析
学位
本文着重于研究层级图表征学习模型,提出了一种改进当前主流层级图表征模型的算法。该算法旨在提升图分类任务中预测分类标签准确率的性能,并通过实验来验证新算法模型的有效性和可应用能力。近年来,针对处理非结构化数据的机器学习方法这一研究受到越来越多的学者关注。不同于结构化数据(如图片、音频、视频等)的固定排列结构,非结构化数据的结构排列是没有固定顺序的,这使得传统深度学习算法无法作用于非结构化数据。因此,
学位
随着人工智能技术和机器人流程自动化技术(RPA)的发展,传统的审计工作面临较大变革。审计自动化、审计智能化与审计数字化逐渐成为未来审计领域的发展趋势。因此,融合人工智能技术与RPA技术对发现企业财务舞弊、提升审计质量与审计效率具有重要意义。传统的审计模式需要跨越多个系统或应用,这些繁琐、重复性强的操作仍需审计人员手动完成,现有研究仅将新技术应用于审计的某一方面或某一特定任务,例如合同分析、收集证据
学位
随着机器学习与深度学习的不断发展,计算机视觉已经逐渐成为各大领域持续研究并应用的领域,因此异常检测技术逐渐出现在人们日常生活中的方方面面,尤其是在工业工厂领域,异常检测技术的不断成熟不仅提高了缺陷产品的检测率,减轻了工人的劳动时间与工厂的用人成本,而且极大地降低了工厂因缺陷产品而产生的成本。但是面对异常样本十分稀缺的情况下,如何训练模型来提高检测缺陷产品的准确性就成为了异常检测领域中一个需要解决的
学位
现如今这个时代人类的精神生活高度饱和,人们可以借助各类社交点评软件来表达自己对于各类事物的意见和看法,这同时也是表达自我感情的过程,会有大量的情感倾向特征应运而生。基于评论数据的情感分类可以度量出用户的情感走向,不仅可以据此实现个性化推荐,还可以依据情感波动对现实生活中的诸多事物进行切实的改进,因此其隐藏的社会价值十分有意义。但是传统的文本情感分析任务往往并没有考虑到性格这类本质性的人格特征对于人
学位
区块链经历了从数字货币技术到可应用于各行各业的发展和演变。区块链作为新兴技术,逐渐引起了中央和地方政府的重视,在2019年的全国两会上也被频繁提及。其实,早在2016年,中国政府就开始了对于区块链技术的探索。智能合约相当于是一个“不可改变”且“公正”的“中间人”,协议条件满足就会强制执行该合约,由不得赖账。但是一直以来,智能合约缺少相应的技术作为支持,所以在被提出的时候没有很好地发展下去。而区块链
学位
现在深度学习方法已经广泛应用于医学界的各种疾病检测中,为医学工作者带来了诸多便利。从2019年武汉新冠肺炎(COVID-19)疫情爆发至今,全国乃至全球人民都不可不避免地受到疫情的影响,为此各大医疗机构都加设了疫情专区,以便更有效、安全地服务患者。另外,新冠肺炎作为肺炎疾病的一种,在临床表现上有许多相似的地方,例如都会表现出咳嗽、呼吸困难等症状;在影像方面,无论是X射线检测影像还是CT影像,两者也
学位
随着计算机运算能力的不断提高,信息的存储和利用方式变得越来越简单和多样化。其中知识图谱是一种将现实世界中复杂事物关系挖掘出来并且将其可视化的技术。近年来,大数据技术以及人工智能产业的快速发展成熟,能高效准确处理海量信息的强大机器学习、深度学习算法等被应用在了各行各业的研究中,尤其在自然语言处理界,深度学习的发展大大促进了各领域知识图谱的广泛应用研究。金融行业是一个具备庞大复杂数据信息的领域,同时也
学位
随着我国经济的繁荣增长,我国证券市场不断发展,但离有效市场尚有差距,存在利用历史财务和因子数据获取超额收益的空间。对于弱有效市场,采用多因子选股模型构建股票组合是战胜市场的有效办法。面临海量的财务和因子数据,机器学习算法能够有效捕捉其中的股票信息以预测未来股票涨跌,进而帮助选股。此外,随着股指期货、融资融券等新型衍生品工具的推出,Alpha对冲策略也能够引入投资策略,帮助抵御市场的系统性风险,获得
学位