关联聚类算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:cjn2503687
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类(Clustering)技术是机器学习中非常重要的一种非监督学习方式。通常,聚类算法依据某种准则将相似的样本指派到同一个类中、将不相似的样本指派到不同的类中。聚类算法最常见的输入是相似性(相异性)矩阵,矩阵中的元素表示对应两个样本间的相似性(相异性)。关联聚类是一种特殊的聚类技术,其输入是一个同时表示样本间相似性和相异性的符号网络,在符号网络中用正边表示对应样本之间的相似性、用负边表示对应样本之间的相异性。关联聚类的目标是使得到的聚类结果中正边尽量存在于类内、负边尽量存在于类间。传统的关联聚类算法主要是建立在整数线性优化(Integer Linear Programming,ILP)模型上。这类算法的主要问题是算法运算效率低,在处理越来越常见的大规模社交网络、生物网络时往往力不从心。本文研究大规模符号网络的关联聚类问题,文中的研究按照两条技术路线来设计关联聚类算法。第一条技术路线基于对符号网络的规模约简(Reduction)和基于环形不等式的关联聚类ILP模型。符号网络规模约简针对无权和有权符号网络分别设计了规模约简算法,使得聚类算法可以在更小规模的符号网络上运行;基于环形不等式的ILP模型较原来的ILP模型具有更高的计算效率,将其作用在约简的符号网络上产生了两种关联聚类算法。第二条技术路线从针对无符号网络的分割算法中寻求突破口来设计关联聚类算法。无符号网络分割问题目前已经存在较多的研究成果和文献资料,我们借鉴其中的一些重要思想来设计关联聚类算法。具体来说本文的主要研究工作描述如下:(1)基于网络结构特性的符号网络规模约简算法。实际应用中的符号网络比如社会网络、生物网络等都遵循一些典型的网络结构特性,比如顶点的幂律分布(Power-law)、高聚类系数、相互性、传递性等。本文分析了这些网络结构特性对于聚类倾向的影响,并依此分别设计了适用于不同类型的符号网络的规模约简算法:针对无权符号网络提出了一种星型结构来约简网络规模,这种星型结构以符号网络中对聚类具有更高贡献的顶点为核心来搜索一步范围内的顶点并共同构成类原型;针对有权符号网络提出了基于滴水原理(Drop of Water)的网络约简算法,算法从重要顶点出发进行搜索,所有搜索路径上的点和原点一起构成类原型。无论是哪种类型的符号网络中得到的类原型最后都被设计成能够遍布于整个网络,从而得到最大的约简效果。(2)基于环形不等式ILP模型的局部搜索。传统关联聚类算法的ILP模型中的约束条件是基于三角不等式来构造的,因此当符号网络的规模增大时会导致约束条件的数量急剧增加,这是导致传统算法计算效率较低的根本原因。本文提出了一个改进的ILP模型,其约束条件建立在符号网络中实际存在的环之上,使用环形不等式约束代替三角形不等式约束,因此约束条件的数量由实际存在的环的数量来决定,基于环形不等式的ILP模型的效率大大优于原有模型。利用改进的ILP模型本文设计了一个针对约简符号网络的局部搜索策略来得到最终的关联聚类结果。(3)基于随机游走的关联聚类算法。随机游走(Random Walk)由于其直观、简单、有效而在无符号网络分割中得到广泛的应用。本文将随机游走机制应用在符号网络中,设计了称为随机游走间隔(Random Walk Gap,简称RWG)的机制来捕获符号网络的类结构信息。RWG首先从原符号网络构造出两个衍生网络并在两个衍生网络中进行多步随机游走,由此得到衍生网络的多步转移概率。研究发现,符号网络中具有不同聚类意义的边对应顶点的两个衍生网络中的多步转移概率值的变化具有不一样的规律,因此定义了三种类型的边并分析了各种类型的边对于聚类结果的影响。因此RWG机制能够发现对于聚类具有重要影响的边并修正这些边的权重,在此基础上配合使用一个简单的贪心聚类算法就能够取得非常好的关联聚类结果。本文另外的工作包括设计人工符号网络生成算法。关联聚类问题研究进展缓慢的一个原因是缺少实验数据,因此本文设计了人工符号网络生成算法。算法能生成具有各种特性的人工符号网络,比如顶点的正度和负度的幂率分布、高聚类系数等。生成的人工符号网络使得算法性能的比较更完备。
其他文献
稀疏约束优化是指带有稀疏约束的一类优化问题,它被广泛应用于信号和图像处理、机器学习、经济学、统计学等众多领域.经过十多年的发展,稀疏优化已经成为当下热门的研究方向.然而,由于100范数所蕴含的组合性质,稀疏约束优化问题是一个非凸非连续的NP-难问题.此时,传统的连续优化理论与算法已然捉襟见肘,这给研究者们带来极大挑战,同时也为我们探讨新的优化问题和方法提供了机遇.本文较为系统地研究了稀疏约束优化的
伴随着中国的城市化进程,作为城市发展骨骼的城市轨道交通进入规模化快速发展阶段。因具有投资规模大、建设周期长、投资回报低等特点,城市轨道交通一直由政府主导市场,存在项目建设资金供需矛盾突出、竞争不充分导致效率不高等问题,亟需通过市场化途径解决此类问题。2014年以来,国家鼓励推行PPP模式加快基础设施领域市场化进程,明确“政府和社会资本合作模式(PPP)是在基础建设及公共服务领域建立的一种长期合作关
学位
储能式有轨电车具有载客运量大、能量效率高、无温室气体排放、无视觉污染和成本低等优点,近年来在国内各个城市逐步得到推广。发展储能式有轨电车不仅可以缓解能源短缺和环境污染,还可以丰富城市的公共交通系统,促进城市的发展。车载储能系统、地面充电站和供电网络是储能式有轨电车线路能量转换的核心组成。如何明晰储能式有轨电车线路的运行特征,并全局地优化车载储能系统及其地面能量补给是实现线路经济运行的关键。目前,关
学位
目的探讨和分析HIV/AIDS合并脊柱结核外科手术疗效及预后情况。方法选取于2010年9月至2018年10月在我院接受外科手术治疗的患者28例为研究对象,对上述选取对象的临床资料进行回顾性分析。所有患者均正规抗痨治疗1月以上,无发热、无结核中毒症状,血沉明显下降稳定。CD4+T淋巴细胞亚群检测方法采用美国BD流式细胞仪,可以直接获得CD4+T淋巴
会议
神经网络是一门新兴交叉学科,始于20世纪40年代,是人工智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点.人工神经网络是模拟人脑神经系统,具有学习、联想、记忆和模式识别等智能信息处理功能的非线性系统.分数阶微积分作为整数阶微积分的推广,具有无穷记忆与遗传特性,有助于神经元高效的信息处理,并可以触发神经元的振荡频率的独立转变.分数阶微积分能很
移动机器人作为协助人类进行生产生活的一类新型辅助工具,广泛应用于先进制造、海空探索、医疗服务、军事侦察等具有精细化、繁重性、危险性或未知性特点的任务领域。这就要求移动机器人具有更强的复杂地形适应性。作为移动机器人的重要执行部件,多种轮式、履带式、腿式、混合式以及其它新型地面移动机构被不断探索和开发,用于提高机器人的移动能力。本文从几何学中多面体的空间关系出发,应用机构学中连杆机构的设计原理,对多面
陶行知先生提出:"生活教育是生活所原有、生活所自营、生活所必需的教育。"幼儿入园签到表的设置符合陶行知先生提出的"生活即教育"理念。教师开展幼儿入园签到活动,可以培养幼儿良好的时间观念,进而促进幼儿统计能力的发展。一、入园签到表对促进大班幼儿统计能力的意义(一)培养大班幼儿良好的作息时间当前,部分幼儿的作息时间不规律,经常出现上学迟到、中午不愿意休息等问题。对于这种现象,学校和家庭如果不重视
期刊
随着共建“一带一路”倡议的不断发展,中欧班列发展势头迅猛,已经成为连接中国与亚欧市场、推动中国与沿线国家经贸往来的重要抓手。但是,中欧班列仍然存在网络节点层次不清晰、缺乏合理的竞合机制、以及对境外节点的认知与评价不足的问题。因此,本文以共建“一带一路”倡议为宏观背景,为提高中欧班列物流网络的整体运行效率、提升其综合竞争力,以中欧班列物流网络节点为研究对象,从宏观层面和政府规划角度,对中欧班列物流网