基于局部扩充与优化的重叠社群检测算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:Hatchet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学、社会网络、web分析等方面的发展积累了大量的复杂网络数据信息,及时快速的挖掘出这类数据中的社群结构已成为数据挖掘领域一项重要的工作。传统算法在对社群定义中的一个特点是社群之间是不相交的,而现实数据图结构中,一个节点往往是从属于多个社群的,即社群之间存在重叠。加之数据图结构的多样性特点,使开发一种快速而准确的算法对数据图结构进行重叠社群检测成为一种极具挑战性的工作。本文主要对重叠社群检测算法进行了研究。2009年Andrea Lancichinetti等人提出的LFK算法,是一种高效的重叠社群检测算法,它提出了一种高效的局部扩充优化的模型对社群进行检测,并针对社群重叠的情形设计了高效的实验评估指标用于算法准确度的评估。在此基础上,2010年Conrad Lee等人提出了Greedy Clique Expansion(GCE)算法,解决了LFK算法对于某些特殊种子循环扩充而无法停止的问题。这类算法简单高效,同时存在一些不足和可供改进的地方:①算法内部流程可调整拆分,使算法存在并行化可能;②局部扩充优化函数中的α因子可被考虑进社群成长过程,从而使算法自适应的选取α,减少运算前手动的对α的选取,从而使算法能更快收敛至最优结果。本文针对GCE算法中这些可供改进的地方,进行了一系列具有针对性的研究,研究内容和取得成果如下:①将α因子的自适应机制引入到GCE算法中。新方法中,通过分析社群成长的局部扩充优化函数,变换调整了社群局部扩充优化的机制,使算法在保持准确性的基础上能对α因子进行自适应的选取,从而去除了在算法开始前,手动设定α因子值大小的繁琐操作。并且在引入α因子自适应机制后,通过在此模型基础上对扩展备选集合的进一步缩减,从而提升了算法速度,弥补了α因子自适应模型中的性能丢失。②将并行化模型引入到GCE算法中。新方法在分析现有GCE算法流程及原理的基础上,通过将GCE算法中种子的扩充过程和备选社群的过滤过程进行分拆至不同CPU上,使算法足以在任务级上达到并行。同时将各个环节的任务拆分为处理子数据集的子任务,使得算法进一步在数据级上同步,并运用当前计算机的多核优势进行并行计算,从而提升算法的执行速率。③对上述算法的改进进行了实验分析和验证。首先在众多评价指标中确定了以改进的NMI标准互信息量指标作为算法准确度评价指标。然后根据LFR模型构造出了不同类别的人造数据图结构,对GCE算法及改进后算法进行了实验分析和验证。最后通过对来源于Combined-AP/MS网络的蛋白质交互信息网络图和标准CYC数据集所列举出的已知蛋白质化合物数据集上进行了实验分析和验证。最终实验表明,改进算法在算法的可用性和速率上都有一定的提升。
其他文献
软件工程监理是信息化工程监理的一个重要组成部分,作为一种为信息化建设提供专业监督控制服务的重要模式,国家为其制定了相关标准,以保障其良好发展。但软件工程监理仍存在风险
网格计算突破了现有的资源限制,将分布的资源组织起来,协同解决复杂的科学计算与工程应用问题,为用户提供了强大的计算能力,极大地推动了科学研究和工程实践的发展。网格可容
CT扫描已成为肺部疾病检测的最重要手段之一。利用医学可视化技术对CT图像进行处理,能够重建出具有高度可视化性能的三维影像,给临床诊断提供了直观的病变信息,使过去不易确
软件在社会信息化过程中担当着重要角色,如何有效地提高软件开发效率、缩短开发周期、开发功能和性能都满足应用需要的高质量软件系统,一直是软件开发人员和用户共同关注的焦
当今企业面临着快速响应市场竞争和客户需求的挑战,而BPEL作为面向服务架构(SOA)下服务组合的主要实现技术,能够真正体现SOA基于开放标准、组件化、松耦合和可复用等优点,简
基于内容的视频检索是近年来的研究的热点问题。随着多媒体技术的日益成熟,各种各样的视频应用层出不穷,传统的基于文本标签的检索已经不能很好的满足海量视频的检索需求,如
嵌入式系统是一个综合应用计算机技术、电子技术和软件技术的系统,嵌入式操作系统作为其软件平台需要适应不同的硬件环境和应用场合,这造就了它的多样性。源代码公开的嵌入式操
机器人位置伺服控制器是机器人控制系统的重要组成部分,对工业机器人操作手的控制精度、稳定性和实时性起着至关重要的作用。随着工业机器人应用范围的扩大,机器人的复杂程度和
随着传感器技术、微机系统、片上系统、无线通信技术的飞速发展,无线传感器网络被广泛应用于军事作战、交通控制、医疗卫生、环境监控等各种领域,并且迅速地成为网络领域中研
随着信息技术的发展,计算机技术在教育测量、测试中的应用越来越广泛。以信息技术为基础的计算机化测试,对于提高测试质量和公正、客观、准确的评价测试群体、控制测试误差,