论文部分内容阅读
人工智能已经成为一门综合性学科,并深入影响各行各业的发展,其中尤以机器学习的发展最为迅速。以聚类算法为例,作为一种典型的无监督学习算法,近年来获得的研究成果非常丰富。随着社会需求的不断增加,从实例中选择类中心点的聚类算法越来越受到重视和关注,即基于代表点聚类算法。另一方面,机器学习面临着许多新的应用场景,例如数据流、大数据、链接约束、迁移学习等。为了探讨基于代表点聚类算法的应用前景,本课题针对机器学习研究所面临的新的应用场景,分别改进聚类算法,并得到应用于新场景的基于代表点聚类算法。因此,本课题的具体研究成果如下:1、利用贝叶斯概率框架,并依据最大后验概率原理,提出基于代表点的贝叶斯聚类算法,称为Bayesian Exemplar-based Clustering Algorithm,BE算法。BE算法是本课题研究的出发点,该算法将两种典型的基于代表点聚类算法,即AP算法与EEM算法的目标函数联合起来,利用高斯混合模型能够平滑的近似任意形状的概率密度的性质,根据其概率密度函数,定义代表点集合的先验概率以及样本点与代表点的概率关系。BE算法将贝叶斯概率框架引入到基于代表点聚类算法中,因此有效的拓宽了这类算法的研究思路和应用场景。2、针对数据流动态聚类问题,本课题基于BE算法,提出一种新的基于代表点的数据流动态聚类算法,即Probability Drifting Dynamicα-Expansion Clustering Algorithm,PDDE算法。该算法将原数据与新数据之前的相似性嵌入到新的目标函数中,使得新数据的代表点与原数据的代表点尽可能接近,从而提高算法处理新数据的聚类性能。PDDE算法能够度量数据间的两种相似性,即1)新数据与原数据分享部分样本,2)新数据与原数据仅相似,不分享样本。3、针对大数据处理问题,采用分块处理数据的新模式,提出一种递增式基于代表点聚类算法,即Incremental Enhancedα-Expansion Move Clustering Algorithm,IEEM算法。IEEM算法在迭代过程中根据前一个数据块的代表点集合不断调整当前数据块的代表点,因此,当处理完最后一个数据块时,将得到基于整个数据集的处理结果。IEEM聚类算法不需要构造新的优化算法,而是借助了EEM算法的优化框架来解决大数据问题。4、针对成对链接约束问题,本课题将链接约束分为弱链接与强链接2类,在贝叶斯概率框架的基础上,基于原来BE算法的目标函数,通过引入一个关于链接约束的惩罚项,得到新的算法模型,即Bayesian Enhancedα-Expansion Move Clustering with Loose Link Constraints Algorithm,BEEMLC算法。BEEMLC算法既能处理弱链接约束也能处理强链接约束问题。另外,在求解新的目标函数时,BEEMLC算法改进了EEM算法中的优化框架。5、针对迁移学习中的聚类问题,本课题首先假定源域与目标域的相似性可以表现为两者代表点集合的相似性,并使用Kullback-Leiber距离度量这种相似性,从而得到一种新的算法,即Transfer Affinity Propagation based on Kullback-Leiber distance,TAP_KL算法。其次,在本课题的研究过程中,得到一个重要结论,即可以将源域与目标域的相似性嵌入到目标域数据集相似性矩阵的计算中,从而直接利用AP算法的优化框架解决新的迁移聚类问题。