论文部分内容阅读
大数据时代的来临使得数据挖掘和机器学习领域面临着重要挑战,而聚类和分类正是这个领域着力研究的问题。聚类分析能够使人们发现数据中隐含的模式与规律。划分式聚类算法在实际应用中非常普遍,但不能识别任意形状和密度的簇且不能确定合适的类簇数,K-medoids聚类方法正是典型的划分式聚类算法之一。图聚类算法也是一种传统的聚类方法,不仅能够收敛到全局最优,还可以在不同形状的样本空间上聚类。特征选择是分类任务广泛应用于医疗、图像和文本等领域的重要方法。然而此类数据都具有高维度的特征并且特征中多含有冗余的或者与类标无关的特征。尤其对于高维度、高冗余、高噪声的基因表达数据,如何剔除冗余特征,降低特征维度,从而提高分类质量,获取有效特征子集十分重要。本文就快速K-medoids算法需要提前给定类簇个数、不能识别任意形状类簇的问题,谱聚类算法中核函数参数选择的问题,以及谱特征选择算法特征重要性度量的三方面问题展开研究,主要工作及创新点分别如下:1.本文提出了一种基于测地距离和新指标Fr 的快速K-medoids聚类算法:一,本文通过改进F统计量定义一个新的统计量Fr,作为聚类内部评价指标和迭代停止准则,自动确定数据集的类簇数;二,本文采用样本间测地距离MST_path而非欧氏距离,实现任意分布形状数据上的聚类。常用UCI数据集和人工数据集的实验显示,本文采用相似性度量方法MST_path和新聚类指标Fr,不但能够自动发现数据集的类簇数,还可以发现任意形状的簇,且对噪音数据具有良好鲁棒性。2.Self-Tuning谱聚类算法发现NJW算法中参数是全局的,聚类结果对参数很敏感,进而提出一种局部尺度参数,定义为样本与其第p个近邻的距离。然而,这一定程度上会受到离群点的影响,因此本文定义样本局部标准差σstai,表示为样本与前p个近邻的距离的标准差,有效避免离群点的影响。算法在几个常用UCI数据集、人工数据集和模拟噪声数据集上,使用ACC、AMI和ARI三个指标进行测试,Self-Tuning算法和SCSD算法整体聚类性能优于NJW算法;在近邻个数参数一致的情况下,大部分实验中本文算法的聚类性能优于Self-Tuning算法;SCSD算法在几个噪声数据集上的性能均高于其他两个算法。3.将SCSD谱聚类方法应用到特征选择方法中,提出了新的谱特征选择算法FSSC。将数据矩阵转置,计算特征局部标准差,记作σfs_i;并分别采用熵排序和余弦相似性排序作为度量特征重要性的方法,从而选择出一个最合理的特征子集。实验通过支持向量机分类正确率等方法评价特征子集实现特征选择的分类性能,并使用7个基因数据集进行实验分析,与多类簇特征选择方法MCFS和拉普拉斯分值特征选择方法Laplacian进行比较,表明新提出的谱特征选择算法性能良好。