论文部分内容阅读
聚类作为一种无监督学习方法,一直是机器学习、数据挖掘、模式识别等领域的一个重要、活跃的研究方向。Affinity Propagation(即AP)是一种新型的exemplar-based聚类算法,由Frey和Dueck在2007年提出,其将所有样本点均看作潜在类代表点,通过信息传递自动确定完成聚类,避免初始聚类中心选取不当造成的不良后果,在某些应用方面相较于目前常用的聚类算法(例如K-means、K-medoids等)效果更好。该算法一经提出便得到广泛的关注,目前已应用于人脸分类、图像分割、文本挖掘等领域,大量基于AP的改进和扩展算法也被相继提出。作为一种新型聚类算法,AP算法仍有问题有待解决,其中一个比较关键的问题就是偏向参数P(P={pk},其各元素反映各点成为类代表点的偏向程度)的取值问题。偏向参数的大小直接影响聚类结果,在标准AP以及基于AP的算法中,pk一般被赋为一个相同的常数,在聚类过程中保持不变。但对于某些实际问题,赋予所有样本点以相同的偏向参数并不十分恰当,忽视了数据本身蕴含的一些信息,可能造成信息迭代更新过程中不必要的计算。本文针对AP的上述问题进行了 AP算法研究和改进工作,并将所提出的改进算法应用于标准实测数据的聚类以及气液两相流流型辨识中。本文主要工作和创新点如下:1.提出一种新的AP算法——偏向参数自动更新的AP(Adjustable PreferenceAP,APAP)算法。该算法针对目前AP算法存在的问题,从偏向参数的赋值和偏向参数的自动更新两个方面进行研究和改进。首先,各点对应的偏向参数初值由对应近邻相似度集合确定;其次,在聚类实施的信息更新过程中,增加类代表点相互作用约束条件,改变AP信息传播的因子图模型,使偏向参数根据类代表点的相互作用自动调整。经过人工数据集的实验测试研究发现,APAP 算法的四项有效性指标——Classification Rate(CR)、Rand Index(RI)、Normalized Mutual Information(NMI)和 Number of Interaction(NI)整体优于AP算法。同时,将所提出的APAP算法与多类代表点AP算法(MEAP算法)、自适应AP算法(adAP算法)进行对比。实验结果验证了所提出算法的可行性、有效性。2.将所提出的APAP算法应用于实际测试数据中,选取加州大学欧文分校提供的标准测试数据库(UCI机器学习库,the UC Irvine Machine Learning Repository)中的四类常用且具有代表性的实测数据,进行了聚类应用研究。结果表明,与AP算法相比APAP算法的聚类性能更好,利用APAP算法在四种代表性数据集上得到的多数有效性指标(CR、RI、NMI和NI)均好于AP;与其他AP改进型算法(MEAP算法、adAP算法)相比,APAP算法所需的迭代次数和时间更少,稳定性更好。3.将所提出的APAP算法应用于气液两相流流型辨识中,针对目前流型辨识中存在的问题,提出了一种基于APAP算法的流型辨识新方法。该方法首先对传感器采集的数据提取特征矢量,然后利用所提出的APAP算法对数据进行聚类得到典型流型对应的类代表点,最后基于近邻原则进行流型辨识。本文分别利用两种传感器(12×6维的光电池阵列传感器、径向C4D(Capacitively Coupled Contactless Conductivity Detection)传感器)对所提出的流型辨识方法进行了实验研究。结果表明,APAP聚类结果符合实际流型分类,同时采用APAP聚类这种无监督的流型辨识方法对三种典型流型(泡状、塞状和层状流)的辨识正确率均高于89.5%,验证了所提出的APAP算法的聚类性能以及其在流型辨识应用上的潜力。