关关关联联联聚聚聚类类类算算算法法法研研研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:smallfishyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类(Clustering)技术是机器学习中非常重要的一种非监督学习方式。通常,聚类算法依据某种准则将相似的样本指派到同一个类中、将不相似的样本指派到不同的类中。聚类算法最常见的输入是相似性(相异性)矩阵,矩阵中的元素表示对应两个样本间的相似性(相异性)。关联聚类是一种特殊的聚类技术,其输入是一个同时表示样本间相似性和相异性的符号网络,在符号网络中用正边表示对应样本之间的相似性、用负边表示对应样本之间的相异性。关联聚类的目标是使得到的聚类结果中正边尽量存在于类内、负边尽量存在于类间。
  传统的关联聚类算法主要是建立在整数线性优化(Integer Linear Programming, ILP)模型上。这类算法的主要问题是算法运算效率低,在处理越来越常见的大规模社交网络、生物网络时往往力不从心。本文研究大规模符号网络的关联聚类问题,文中的研究按照两条技术路线来设计关联聚类算法。第一条技术路线基于对符号网络的规模约简(Reduction)和基于环形不等式的关联聚类ILP模型。符号网络规模约简针对无权和有权符号网络分别设计了规模约简算法,使得聚类算法可以在更小规模的符号网络上运行;基于环形不等式的ILP模型较原来的ILP模型具有更高的计算效率,将其作用在约简的符号网络上产生了两种关联聚类算法。第二条技术路线从针对无符号网络的分割算法中寻求突破口来设计关联聚类算法。无符号网络分割问题目前已经存在较多的研究成果和文献资料,我们借鉴其中的一些重要思想来设计关联聚类算法。具体来说本文的主要研究工作描述如下:
  (1)基于网络结构特性的符号网络规模约简算法。
  实际应用中的符号网络比如社会网络、生物网络等都遵循一些典型的网络结构特性,比如顶点的幂律分布(Power-law)、高聚类系数、相互性、传递性等。本文分析了这些网络结构特性对于聚类倾向的影响,并依此分别设计了适用于不同类型的符号网络的规模约简算法:针对无权符号网络提出了一种星型结构来约简网络规模,这种星型结构以符号网络中对聚类具有更高贡献的顶点为核心来搜索一步范围内的顶点并共同构成类原型;针对有权符号网络提出了基于滴水原理(Drop of Water)的网络约简算法,算法从重要顶点出发进行搜索,所有搜索路径上的点和原点一起构成类原型。无论是哪种类型的符号网络中得到的类原型最后都被设计成能够遍布于整个网络,从而得到最大的约简效果。
  (2)基于环形不等式ILP模型的局部搜索。
  传统关联聚类算法的ILP模型中的约束条件是基于三角不等式来构造的,因此当符号网络的规模增大时会导致约束条件的数量急剧增加,这是导致传统算法计算效率较低的根本原因。本文提出了一个改进的ILP模型,其约束条件建立在符号网络中实际存在的环之上,使用环形不等式约束代替三角形不等式约束,因此约束条件的数量由实际存在的环的数量来决定,基于环形不等式的ILP模型的效率大大优于原有模型。利用改进的ILP模型本文设计了一个针对约简符号网络的局部搜索策略来得到最终的关联聚类结果。
  (3)基于随机游走的关联聚类算法。
  随机游走(Random Walk)由于其直观、简单、有效而在无符号网络分割中得到广泛的应用。本文将随机游走机制应用在符号网络中,设计了称为随机游走间隔(RandomWalkGap,简称RWG)的机制来捕获符号网络的类结构信息。RWG首先从原符号网络构造出两个衍生网络并在两个衍生网络中进行多步随机游走,由此得到衍生网络的多步转移概率。研究发现,符号网络中具有不同聚类意义的边对应顶点的两个衍生网络中的多步转移概率值的变化具有不一样的规律,因此定义了三种类型的边并分析了各种类型的边对于聚类结果的影响。因此RWG机制能够发现对于聚类具有重要影响的边并修正这些边的权重,在此基础上配合使用一个简单的贪心聚类算法就能够取得非常好的关联聚类结果。
  本文另外的工作包括设计人工符号网络生成算法。关联聚类问题研究进展缓慢的一个原因是缺少实验数据,因此本文设计了人工符号网络生成算法。算法能生成具有各种特性的人工符号网络,比如顶点的正度和负度的幂率分布、高聚类系数等。生成的人工符号网络使得算法性能的比较更完备。
其他文献
股票市场由于其在国家以及人民群众中的特殊地位,很早就是人们想要研究的对象。而股票市场的内在波动形式与变化情况的预测一直是相关研究人员的重点研究内容。但是股票市场具有非线性、高噪声,多扰动的特点,想要对股票市场的未来运动轨迹做出预测并非易事。近年来随着信息传播速度的加快,人们获取信息的速度与途径相比以往都有了极大的提升。而伴随着着机器学习技术和相关统计学习技术、大数据技术的发展,研究者对股票特征的刻画也更加全面。由于对股票市场的认识大多是基于股票时序数据的股票多因子研究,目前随着计算机算力的提升,对大规模的
策划人语:  今年时值建党百年,全党上下深入学习宣传贯彻习近平总书记在庆祝中国共产党成立100周年大会上的重要讲话精神。当今世界正处于百年未有之大变局,意识形态领域的斗争日趋尖锐,形势日益复杂。在此背景下,如何把握高校宣传思想工作的新形势、新要求,凝聚政治认同,着力化解风险,加强思想引领,开创高校宣传思想工作新局面,全力维护高校政治安全和校园稳定,是摆在全省高校党委宣传部门面前的重大课題。  为进
期刊
近年来,基于模式识别的智能仿生技术取得了长足的发展,智能仿生假肢的功能、性能、可穿戴性及智能化程度越来越高,已成为国内外学者的研究热点。对智能仿生系统开展研究不仅具有重要的学术意义,而且具有很高的社会与经济价值。
  表面肌电信号(surface Electromyography,sEMG)作为一种生物电信号,能够反映功能性肌肉收缩的电活动,具有提取方便、无创伤等特点。然而由于肌电信号本身固有的缺陷,导致残肢接口信息源不足,难以同时呈现同一肌肉收缩的电生理和形态学变化信息,A型超声传感(A-mode
文化演出日益成为现代人们丰富精神生活的重要形式,应用信息控制技术丰富舞台装置功能已越来越受到文化展演行业的关注,可作为演出载体的自主移动车台与舞台各系统的融合集控、多移动车台演出编队控制成为现代文化演出服务领域的研究热点。
  在现实演出中,自主移动车台融合舞台集控网下轨迹跟踪失误、跟踪灯光视频动画不同步,以及本体故障和通信干扰时多移动车台群控演出失败时有发生。现有方法通常采用人工干预或者增加硬件成本手段处理,大大限制了自主移动车台在各类演出场景中的灵活和安全应用。因此开展围绕针对演出场景干扰和系统
一、新闻发布工作实践  分享嘉宾:杨晓谜(河南教育新闻中心副主任、教育时报副总编辑)  分享要点:一是热点问题的处理。二是突发新闻事件的处理,包括宏观之势、中观之道、微观之术三个方面。三是从前期筹备,到发言人和主持人的话术、着装等方面,全方位为学员讲解如何准备一场新闻发布会。  二、从微信新媒体运营谈起:如何让师生凝神聚气  分享嘉宾:黄发强(河南教育新闻中心主任助理)  分享要点:一是传播、受众
期刊
真实世界的网络表现出突出的层次结构和模块结构,并以各种子图作为构建块。现有的大多数研究通常将不同的子图提取出来作为模体,并简单地使用它们在网络中出现的频次来描述底层网络。虽然这些统计数据可以用来描述一个网络模型,甚至可以用来设计一些网络算法,但是这些研究不足以发挥子图的关键性作用。本文进一步探讨了子图在网络算法中的应用以及模型的性能。本研究就子图在网络分析研究中的可扩展性做了较为深入的研究,并分别从以下三个方面依次展开,提出了一些子图网络模型及其在网络分析应用中的算法:
  (1)提出一种新的子图网
现实世界中的复杂系统可以用网络来表示和分析。在过去的几十年里,网络科学已经成为一个重要的跨领域学科,旨在使用网络和图作为工具来描述复杂系统的结构并解决实际中的问题,包括社交网络、引文网络、蛋白质网络和交通网络等。近年来,人们提出了许多图表示学习的方法,极大地促进了机器学习方法在图数据挖掘中的应用。图表示学习解决了原始网络数据的高维性和稀疏性问题,在机器学习和网络科学之间架起了一座桥梁,使得许多机器学习算法可以应用到网络分析中。与此同时,相关算法安全问题也吸引了大量研究者的目光。本文针对图表示学习的算法安全
计算机视觉是当今人工智能领域中极为热门的研究方向,而静态图像和动态视频作为视觉媒介中最为常见且重要的两种形式,对其包含的语义类别进行正确有效地分割,既是后续目标跟踪、行人车辆再识别等科研方向的基础,也是无人机定位、自动驾驶等实际应用的基石。
  语义分割旨在对给定的静态图像或者动态视频序列每一帧图像中的像素点进行分类标注,本文在对现有针对图像及视频的语义分割方法进行调研及复现的基础上,对现有开源方法中存在的不足及可改进方向进行了总结与分析。现有的图像语义分割模型大多依然依赖于人工设计的像素级标注,同
策划人语:  7月下旬,我省多地持续遭遇强降雨天气,郑州、新乡等地发生严重内涝,给人民群众生命财产安全造成重大威胁,防汛形势十分严峻。在防汛救灾的关键时期,郑州等地又出现了新冠肺炎疫情,给灾后恢复进一步增加了困难。面对困难,全省高校积极行动起来,贯彻落实中共河南省委高校工委、中共河南省教育厅党组下发的《关于在防汛救灾中深化“把灾难当教材 与祖国共成长”主题教育活动的通知》,用好抗疫救灾这本鲜活的德
期刊
行人重识别技术是指识别跨摄像机拍摄到的行人图像是否属于同一个人的方法。随着视频监控技术的提高,视频监控数据呈爆炸式增长,一一标注耗时耗力,因而有监督行人重识别方法在实际应用中具有局限性。为了使得模型具有自适应性,一种行之有效的方案是将问题建模为基于无监督迁移学习的行人重识别,这是一个有挑战的任务:一方面,目标域数据集无标签,因而不能充分被利用;另一方面,由于收集自不同环境,源域和目标域样本的数据分布存在差异。现有的方法往往通过创建一个共享的特征空间或者估计无标注数据伪标签的方式来解决域差异问题。前者往往忽