论文部分内容阅读
人类要认识世界就必须区分不同的事物并认识事物间的相似性,聚类是按照事物间的相似进行的一种无监督分类,是在对数据不作任何假设的条件下进行分析的一种工具,聚类已广泛应用于各种工程和科学领域。特征的选择和特征权值的选定对聚类效果有着较大的影响,而现有特征选择和特征学习又主要体现在有监督学习中,因此,本文针对特征学习聚类展开了研究,主要工作如下:(1)研究分析了数据挖掘中聚类算法的现状及存在问题,重点阐明划分聚类算法以及特征学习方法。(2)针对划分聚类算法对初始聚类中心选取敏感,并对特征权值的学习和聚类质量有着较大的影响,因此,提出一最大距离和初始聚类中心选取法(新加入的初始中心与已选入的所有初始中心距离和最大)。该方法能较好地将初始聚类中心分在不同的聚类中,并能与划分聚类较能好地结合。(3)为体现数据各特征对类的分离贡献的不同,研究并分析了基于Relief算法的一些特征评价函数及其存在的问题,为本文特征评价函数的构造奠定的基础和切入点。此特征评价函数在算法复杂度和类大小相差悬殊的情形下,对特征的评价均有较好表现。(4)基于新的特征评价函数,运用于特征学习聚类中,以解决特征权值取值不当对聚类产生的负面影响。并将特征学习聚类拓展到具有类属性数据聚类中。通过实验,与传统聚类进行对比、分析,证明特征学习聚类算法在提高聚类精度和特征学习上是可行和有效的。