Affinity Propagation聚类算法的改进及其应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xwp1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为一种无监督学习方法,一直是机器学习、数据挖掘、模式识别等领域的一个重要、活跃的研究方向。Affinity Propagation(即AP)是一种新型的exemplar-based聚类算法,由Frey和Dueck在2007年提出,其将所有样本点均看作潜在类代表点,通过信息传递自动确定完成聚类,避免初始聚类中心选取不当造成的不良后果,在某些应用方面相较于目前常用的聚类算法(例如K-means、K-medoids等)效果更好。该算法一经提出便得到广泛的关注,目前已应用于人脸分类、图像分割、文本挖掘等领域,大量基于AP的改进和扩展算法也被相继提出。作为一种新型聚类算法,AP算法仍有问题有待解决,其中一个比较关键的问题就是偏向参数P(P={pk},其各元素反映各点成为类代表点的偏向程度)的取值问题。偏向参数的大小直接影响聚类结果,在标准AP以及基于AP的算法中,pk一般被赋为一个相同的常数,在聚类过程中保持不变。但对于某些实际问题,赋予所有样本点以相同的偏向参数并不十分恰当,忽视了数据本身蕴含的一些信息,可能造成信息迭代更新过程中不必要的计算。本文针对AP的上述问题进行了 AP算法研究和改进工作,并将所提出的改进算法应用于标准实测数据的聚类以及气液两相流流型辨识中。本文主要工作和创新点如下:1.提出一种新的AP算法——偏向参数自动更新的AP(Adjustable PreferenceAP,APAP)算法。该算法针对目前AP算法存在的问题,从偏向参数的赋值和偏向参数的自动更新两个方面进行研究和改进。首先,各点对应的偏向参数初值由对应近邻相似度集合确定;其次,在聚类实施的信息更新过程中,增加类代表点相互作用约束条件,改变AP信息传播的因子图模型,使偏向参数根据类代表点的相互作用自动调整。经过人工数据集的实验测试研究发现,APAP 算法的四项有效性指标——Classification Rate(CR)、Rand Index(RI)、Normalized Mutual Information(NMI)和 Number of Interaction(NI)整体优于AP算法。同时,将所提出的APAP算法与多类代表点AP算法(MEAP算法)、自适应AP算法(adAP算法)进行对比。实验结果验证了所提出算法的可行性、有效性。2.将所提出的APAP算法应用于实际测试数据中,选取加州大学欧文分校提供的标准测试数据库(UCI机器学习库,the UC Irvine Machine Learning Repository)中的四类常用且具有代表性的实测数据,进行了聚类应用研究。结果表明,与AP算法相比APAP算法的聚类性能更好,利用APAP算法在四种代表性数据集上得到的多数有效性指标(CR、RI、NMI和NI)均好于AP;与其他AP改进型算法(MEAP算法、adAP算法)相比,APAP算法所需的迭代次数和时间更少,稳定性更好。3.将所提出的APAP算法应用于气液两相流流型辨识中,针对目前流型辨识中存在的问题,提出了一种基于APAP算法的流型辨识新方法。该方法首先对传感器采集的数据提取特征矢量,然后利用所提出的APAP算法对数据进行聚类得到典型流型对应的类代表点,最后基于近邻原则进行流型辨识。本文分别利用两种传感器(12×6维的光电池阵列传感器、径向C4D(Capacitively Coupled Contactless Conductivity Detection)传感器)对所提出的流型辨识方法进行了实验研究。结果表明,APAP聚类结果符合实际流型分类,同时采用APAP聚类这种无监督的流型辨识方法对三种典型流型(泡状、塞状和层状流)的辨识正确率均高于89.5%,验证了所提出的APAP算法的聚类性能以及其在流型辨识应用上的潜力。
其他文献
无线传感器网络是新兴前沿的研究方向,它涵盖多个学科的知识,将客观物理世界和逻辑信息世界相结合,从而改变了人与自然界之间交流的方式。无线传感器网络因其自组织、以数据为中
糖尿病已经逐渐发展成为一个危害人类健康和社会的全球性疾病,人工胰脏系统被认为是治疗糖尿病最有前景的方法之一。随着连续血糖监测系统和胰岛素泵的发展,人工胰脏系统的硬
智能交通系统能有效提高交通管理效率,提高交通运输安全性、路网通行能力和运输效率。车牌识别技术是智能交通系统的关键组成部分。本文针对车牌识别系统中车牌定位、字符分割
最近,深度学习(Deep Learning,DL)已经被证明可以显著改善语音识别性能。卷积神经网络(Convolutional Neural Network,CNN)依靠其特殊的网络结构与强大的特征学习能力而广泛应用于语音识别任务。但是传统卷积神经网络二维模型卷积核大小通常为nn?,不能反映语音信号的一维本质特性,针对这一问题,本文提出将卷积核的一个维度设置为帧数利用卷积神经网络一维模型和二维模型
学位
本文针对网络化线性系统的状态估计问题,主要从两个大方面进行研究:网络化不确定性系统状态估计稳定性和网络化分布式系统状态估计优化。  在网络化不确定性系统状态估计稳
感应耦合电能传输(ICPT)技术是一种新型的电能传输技术,它综合运用了现代电力电子技术、磁场耦合技术和现代控制理论,摆脱了传统供电方式通过导线直接接触供电的方式,通过电磁感应耦合关系向负载实现非接触的供电,彻底消除了传统供电方式的接触电火花、机构磨损等缺点,具有安全、环保、低维护、适应性强等优点,得到国内外学者的广泛关注和快速的发展。ICPT系统运用大量电力半导体器件对电能进行变换和控制,这些电力
太赫兹时域光谱(Terahertz Time Domain Spectroscopy,THz-TDS)技术作为一种新兴的光谱分析手段,已经在很多领域得到了研究。由于它一般不会对物质造成电离损伤,对于药物中的集体运动模式(晶格振动、同分异构体构型差异等)非常敏感,使得其在医药检测尤其是药物成分分析领域的应用成为了研究热点。本文主要面向医药生产、监管等领域需求,应用太赫兹波技术,重点研究了固体药物成分
智能楼宇是将现代信息技术与传统建筑技术有机结合的新型化建筑,其实现了对楼宇科学、高效、节能、环保的现代化管理,改善了人类的居住和工作环境。随着经济时代的发展,智能
随着社会的不断发展,能源和环境逐渐成为人类面临的紧迫问题。风力发电可再生无污染的特点使其成为能源技术领域研究的热点。变桨距控制技术是风力发电的关键技术之一。开展变桨距控制技术的研究具有重要的现实意义。模糊控制最大的优点是不依赖精确数学模型,但是模糊控制规则的选取存在较大的主观性且易受参数变化的影响。而滑模变结构控制对外界摄动和参数变化具有不变性,由此可见,模糊控制和滑模变结构控制之间有互补性的存在
现代战争是复杂电磁环境下的高科技信息战,对参战部队综合业务管理系统提出了很高的要求,如何改造现有的管理系统使之适应信息化管理与未来战争的需要是部队信息化建设的当务之