社会网络社团挖掘若干关键技术研究

被引量 : 0次 | 上传用户:ysw135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会网络泛指由世界上具有复杂连接关系的、与研究目的相关的事物或对象所组成的一种网络,广义上的社会网络包括人际关系网络、酶蛋白质网络、生物链网络、新陈代谢网络以及以互联网为代表的各种社交网络等。社会网络可以抽象为一个具有复杂连接关系和结构的可演化图。通常,社团是一组内部连接紧密,外部连接稀疏的节点集合。社会网络社团挖掘对于加强对社会网络的拓扑结构理解、功能分析和行为预测具有重要的理论意义及实用价值,已被广泛应用于恐怖组织识别、新陈代谢路径预测、蛋白质相互作用网络分析、搜索引擎开发和网络舆情监控等诸多领域。本文针对社团挖掘的不同应用场景,分别就多重图模型下的社会网络、含有不完全连接信息的社会网络、二部图模型下的社会网络和多类型节点组成的社会网络的社团挖掘关键技术进行研究,主要贡献有:1、提出了一种基于层次化子图树的多重图社会网络社团并行挖掘方法。根据多重图数学模型,社会网络中任意两个节点之间允许有多条连接边,每条边对应于一个连接属性,赋以一个自然数的权重。对于社会网络图中的任一子图,本文运用该数学模型,通过综合该子图各边权重之和与节点个数引入子图密度的概念,并基于从权重较低的边出发进行逐步分解的思想,构造了子图密度逐层递增的层次化子图树HAT,提出了一种针对静态社会网络的层次化社团并行分解更新算法。进而,根据动态社会网络在相邻时间段内的局部变化原理,提出了针对动态社会网络的层次化社团并行分解动态更新算法。模拟数据集上的实验表明,以上算法在社团挖掘的准确度上优于GN等同类算法;数千万边和节点规模的真实数据集上的实验表明,以上算法适于高度并行计算,可以有效应用于大数据社会网络的社团挖掘。2、提出了基于节点亲近度和马氏距离的不完全信息社会网络社团挖掘方法。假设考察的社会网络各节点具有相同的属性,每个节点对应于一个n维属性值向量;节点之间的连接信息具有不完全性,即某些局部区域的某些连接未知。本文选取具有完全连接信息的某些区域作为学习的样本区域,首先引入节点亲近度的概念,任意一对节点的亲近度由各自连接的邻居数和公共邻居数的某个经验公式给出,亲近度越接近于1,节点对越亲近,为0的节点对视为不亲近。接着对样本区域的每个节点的n维值向量,乘以某个矩阵,将它们变换到一个称为马氏空间的新空间中,使越亲近的节点对,其值向量在马氏空间中的距离,即马氏距离越小。于是,问题便转化为能够迭代求解的数学规划问题:寻找马氏变换矩阵,使所有亲近的节点对,其马氏距离的亲近度之加权和达到最小,同时使不亲近的节点对的马氏距离之和达到最大。最后,通过以上学习过程得到的马氏矩阵,将整个社会网络中的所有节点变换到马氏空间中,经贪婪搜索,给出一种基于节点马氏距离的聚类算法,以及一种-近似社团启发式分解方法。经数千个节点规模的真实数据集的实验,表明本文提出的方法和解决方案是有效的。3、提出了基于图像变换的二部图社会网络重叠社团挖掘方法。二部图社会网络指由两组子网组成的社会网络,边连接仅存在于不同子网的节点之间,子网内部没有任何边连接。其社团挖掘问题是要找出那些分属两个子网的两个社团,称为社团对,尽管社团内部各节点互不直接相连,却与共同的对方社团的节点有密切关联。设两组子网分别包含m个和n个节点,二部图连接关系可以用一个m×n的0/1关系矩阵或黑白图像描述。其社团对的挖掘问题转化为:如何通过整行(列)图像的不断交换与调整,使图像中的黑色像素点最大程度的聚合在一起。本文首先基于哈夫曼图像编码理论,以信息量最小化为目标,改进了一种行(列)贪婪搜索与交换的双聚类迭代算法,使整幅图像分解成若干矩形块,找出那些黑像素点密度较高的块,也就挖掘出了相应的行社团和列社团。接着,进一步针对某些行(列)节点可能同时属于多个不同的行(列)社团的应用场景,提出了一种基于增益函数的重叠社团模式搜索双聚类算法,其核心思想是,对于某一其它行(列)社团的节点能否同时属于本社团,取决于该节点的加入能否使本行(列)社团得到正收益,为此引入增益函数,它是新老社团所对应的块状区域密度差异的加权和。模拟数据集和真实数据集上的实验表明,算法具有良好的二部图社团挖掘效果。4、提出了一种具有多类型节点的社会网络社团挖掘方法。在多类型节点组成的社会网络中,连接既存在于同类节点之间,也存在于不同类节点之间,而社团组成仅限于同类节点。具有n类节点的社会网络的连接关系可以用n×(n+1)/2幅黑白图像描述。本文首先将第一类节点相关的n幅图像拼接成一长幅图像,与第二类节点相关的n-1幅剩余图像也拼成一长幅图像,以此类推。接着把社团挖掘问题转化为与二部图相似的长幅图像的行和列的交换问题,其差异主要在于列交换时必须注意保持各列的语义一致性,其复杂性主要表现在需要综合各长幅图像的黑像素点聚集度。本文运用哈夫曼图像编码理论,以最大化压缩描述上述所有图像为目标,分别在社团数量已知和未知条件下,提出了相应的多聚类贪婪搜索算法。模拟数据集和真实数据集上的实验表明,算法在聚类精度上优于NMF等同类算法。
其他文献
全球经济快速增长的形势下,医院规模不断扩大,患者的数量也在日益剧增。同时大量发生医患冲突事件,导致医院正常秩序受到破坏,加深群众对医院不信任感。目前研究现状而言剖析医患
改革开放以来,中国经济飞速发展,取得了意想不到的成果。中国作为一个发展中国家,赶超了许多发达国家跃居世界国内生产总值排名表上第二的位置。这都是源于中国的对外开放。对外
本文将重点研究对赌协议的法律性质、对对赌协议进行法理分析、分析对赌协议在我国的法律障碍及解决途径,同时分析对赌协议在具体施用过程中的风险及其防控。在借鉴域外先进经
作为现代电子信息技术不断创新的产物,预付卡在近几年里以其快捷小巧、支付方便、提前实现现金流的优势迅速获得了消费者和经营者的共同青睐。预付式消费在满足市场经济发展需
2017年,美国航天能力评估总分为94.22分,位列全球第一,领先排名第二的欧洲36.87分。从评估维度看,美国航天在五个维度仍展现出全面优势,全面领先全球航天能力平均水平,并且各
自来水厂常见的水处理工艺方法很多,如:生物预处理法。使用化学氧化、物理吸附与微生物分解等预处理方式,对水中的有害物质进行分解,消除磷、锰等有害成分和有机污染物。活性
西方国家是20世纪70年代左右出提出刑事和解制度的,通过几十年的发展,刑事和解不仅形成了较为成熟的刑事和解法律制度,并在各国的司法实践上形成了相对稳定的操作模式。然而,刑事
在经济等方面不断发展的时代背景下,我国不可再生能源日益紧张,同时带来的生态环境恶化问题,促使社会各界人士高度重视环保发展战略。基于当下盛行的可持续发展战略思想下,为
京津冀协同发展这一重大国家战略,给河北省司法行政工作带来全新的挑战、提出了更高的要求,同时也带来了千载难逢的发展机遇,笔者现以秦皇岛市为例,就如何在京津冀协同发展中