应用SQL求边的聚类系数

来源 :科技资讯 | 被引量 : 0次 | 上传用户:xoyo20001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:边的聚类系数是用来度量复杂网络中两个结点的紧密程度的,被广泛的应用于识别网络模块。本文介绍了如何利用SQL及相关函数来求解边的聚类系数。
  关键词:边的聚类系数 复杂网络 SQL
  中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2013)03(a)-0001-02
  由Watts and Strogatz[1]提出的结点的聚类系数是用来刻画网络中结点的聚集程度的,已经被用作一个有效工具来分析相互作用网络的拓扑结构[2]。为了度量两个结点的紧密程度,由此衍生出了边的聚集系数的定义[3],它被广泛的应用于识别网络模块,边的聚类系数表示边所连接的两个结点的连接强度,值越大表明这两个结点在同一个模块的可能性越大[4]。
  本文根据Structured Query Language(SQL)的优点编写了程序实现了求解边和结点数目众多的复杂网络中边的聚集系数,为网络的进一步分析打下了基础。
  1 基本概念
  Filippo Radicchi等人在文献[2]中用类似于点的聚集系数的定义的方式定义了边的聚集系数为实际存在的包含该边的三角形的数目和总的可能包含该边的三角形数目之比。即(1)
  zij就是实际包含边(i,j)的三角形的数目。di和dj分别为结点i和j结点的度。di-1和dj-1中最小值min[(di-1),(dj-1)]即为可能包含该边的三角形的最大数目。
  当网络中几乎没有三角形时,为了克服上述定义的不合理性,李敏等人[5]用两个结点的共同的邻居结点的数目取代了包含该边的三角形的数目,改进了边的聚集系数的定义为 (2)
  这里Ni和Nj分别是结点i和结点j的相邻结点的集合。di和dj所代表的意义与(1)式相同。
  2 边的聚类系数的计算
  既然(1)式中关于边的聚类系数的定义存在不合理的地方,故本文按照(2)式来计算边的聚类系数。
  2.1 SQL server数据库中表的设计
  为了描述复杂的网络结构并计算出边的聚集系数,本数据库涉及三张表:结点表、边表、中间表。其中每一张表的结构如下,主码用下划线标出:
  结点表(结点名称)
  中间表(结点1的名称,结点2的名称)
  边表(结点1的名称,结点2的名称,两结点邻居结点交集的个数,两结点中度的最小值,边的聚集系数)
  其中结点表和边表的初始值可以通过外部的excel表或者文本文档导入到数据库中,结点表中存放的是网络中所有结点的名称,结点表中元组的个数等于该网络中结点的个数。边表中存放的是网络中所有的边所对应的结点对,该网络中有多少条边,边表中就有多少条元组。中间表是为了计算边的聚集系数时所建立的一张过渡表,通过它可以比较方便的计算出结点的度,和两个结点的邻居结点的交集。起初中间表是一张空表。
  例如有个网络1的拓扑结构如下图1所示。
  为了描述这个网络,先在结点表和边表中的写入初始数据。
  2.2 计算过程
  2.2.1 写中间数据到中间表中
  初始数据导入到数据库中后,依次取出结点表中的结点名称,分别在边表中查询结点1或结点2的名称等于结点名称的元组,并将查询的结果写入中间表中,在写入的过程中,若是边表中结点1的名称等于结点表中的结点名称,则原样写入,若是边表中结点2的名称等于结点表中的结点名称,则交换结点1和结点2的顺序写入。例如上例中在查询了边表中结点1或结点2的名称等于“A”的元组后,写出中间表的结果如下:(如表1)。
  最终中间表中所存放的元组的个数等于网络中边的条数的两倍,也等于边表中元组数目的两倍。
  2.2.2 求两结点邻居结点交集的个数
  依次读出边表中的每一条元组,在中间表中用嵌套查询语句和count()函数计算两个结点邻居结点交集的个数。并将最终的计算结果写入边表对应元组的第三列中。其核心语句是:
  2.2.3 计算两结点度中的最小值
  在中间表中分别统计边表中一条元组的两个结点的度,并通过比较,将较小的值写入边表对应元组的第四列中。其核心语句是:
  2.2.4 求边的聚集系数
  当两个结点邻居结点交集的个数及度中的最小值计算出来以后,可直接按照公式(2)求边的聚集系数,其核心语句是:
  UPDATE 边表 SET ECC=(mind+1.0)/degree。
  3 结语
  本文通过SQL语句以及数据库中的相关函数计算了边的聚集系数,求解过程简单,求解思路清晰,为网络的进一步研究及相关的度量算法打下了基础,如果在建立表的时候按照相关字段建立索引可以提高求解效率。当然也可以借助其它的语言工具来编写程序计算边的聚集系数[6]。
  参考文献
  [1] Watts D J,Strogatz S H.Collective dynamics of small-world networks[J].Nature,1998,393:440-442.
  [2] Friedel C,Zimmer R:Inferring topology from clustering coefficients in protein-protein interaction networks[J].BMC Bioinformatics,2006,7:519.
  [3] Radicchi F,Castellano C,Cecconi F,Loreto V,Parisi D:Defining and identifying communities in networks[J].PNAS,2004,101:2658-2663.
  [4] 赵晓慧,刘微,谢凤宏,等.基于局部信息的复杂网络社团结构发现算法[J].微型机与应用,2011,30(15):43-46.
  [5] Li M,Wang J,Chen X,Wang H,Pan Y:A local average connectivity-based method for identifying essential proteins from the network level[J].Comput Biol Chem 2011,35:143-150.
  [6] 李岸巍,阮豫紅.基于MATLAB环境的聚类系数的计算[J].山西师范大学学报(自然科学版),2009,23(3):32-35.
其他文献
一口吃不成胖子,业户满意度的提升也不能一蹴而就。又到物业服务企业年底第三方满意度调查的时刻,显然是几家欢喜几家愁。物业管理基础服务好不好,业户的评价最重要。业户满
漳卫河流域是海河流域重要组成水系,也是我国北方地区水资源短缺和水环境恶化的典型区域之一。本文基于SWAT(SoilandWaterAssessmentTool)构建漳卫河流域分布式水文模型,对模型的几个重要参数进行敏感性分析,总结出其取值变化对模拟结果的影响规律。并应用2000 ̄2004年的水文气象数据,进行分布式水文过程模拟,将模拟结果与8个行政区划的水资源公报数据进行对比分析。结果显示模拟相对
本篇文章介绍了一种测量图像处理的方法,在摄影进行图像摄影测量中,采用边缘特征、区域特征以及灰度特征等处理方式进行视觉测量图像的处理有效关键的计算方法进行研究,并且具有一定的实时性、自动性以及精准性的特点,可以较好的满足高精准度的视觉测量图像的关键算法。
摘 要:本文介绍了Revit MEP三维配管软件的特点,以工程实例介绍了该软件在大型工厂工艺配管设计中的应用,谈了一些在项目建立、模型建立、出图过程中的实践体会,为工厂的管道设计提出了新的思路。  关键词:Revit MEP 三维设计 族 建模  中图分类号:TF7 文献标识码:A 文章编号:1672-3791(2013)01(a)-0001-03  三维设计技术,使设计人员不再是抽象地计算和绘图
设计了一种新型多功能起重输送车,兼具运输、起重、俯仰调整等功能。在设计过程中,首先使用Pro/E对其进行三维建模,并对四杆摆臂机构进行了优化设计,然后基于ADAMS仿真平台进
基于1985~2000年间的高分辨率土地利用/土地覆盖数据,对位于农牧交错带的陕北榆林市土地利用变化及其区域生态环境效应进行定量分析。结果表明:1985~2000年,榆林市土地利用变化区域差异明显,土地利用变化多分布在北部风沙滩地区,表明这些地区的土地利用变化过程相对活跃。生态环境质量总体上得到改善,但局部地区恶化也相当严重,且在县级尺度上表现出明显的区域分异特征。在大的区域尺度上北部风沙滩地区的
【正】拖拉机的故障是多种多样的,产生故障的原因也较复杂。有些故障是较长时间内逐渐形成的;有些故障是在短时间内偶然形成的。一种故障可能表现出多种征象,一种征象可能反
乙醛酸由于其独特的结构,在生产和生活中都有广泛的用途。本文应用密度泛函理论对CHOCHO与O2在Pd催化剂存在条件下的各个反应通道进行了势能面扫描研究。在M06/6-31G(d,p)水平
根据大型滑坡处治所采用的h型抗滑桩的承载变形特性,将其分为阻滑段与锚固段两部分,考虑桩周岩土体对前后排桩的作用特性,提出滑坡推力作用下阻滑段与锚固段的承载变形分析模
【目的】明确斑翅果蝇Drosophila suzukii对樱桃Cerasus pseudocerasus的产卵选择性以及与樱桃生理指标的相关性。【方法】测定了斑翅果蝇对4个樱桃品种(黄蜜、红灯、先锋和萨