论文部分内容阅读
随着现实世界很多无标签和高维度数据集的广泛出现,如文本、图像和基因数据等,无监督特征选择方法的研究和应用成为了当前的一个研究热点,在对无标签数据集的处理上体现了它难以替代的重要地位。本文对无监督特征选择展开初步的研究和探讨,并对过滤式无监督特征选择进行深入的研究。过滤式特征选择的挑战在于如何定义不相关和冗余特征[1],从过滤式无监督特征选择的这两个挑战和研究现状来看,其存在的不足之处是:(1)对冗余特征的定义,从特征归约和特征聚类角度考虑。而特征归约的方法(PCA、ICA)得到的是特征的转换,无法得到原始的特征子集,可解读性不强;对特征用k均值进行相似性聚类,k值的不确定性和聚类算法的不稳定性给冗余特征的删除带来困难。(2)只从去除不相关或冗余特征的角度进行过滤式特征选择,使得到的特征子集不满足最大相关和最小冗余的要求,而不相关和冗余特征往往会降低聚类的性能。因此,本文针对过滤式无监督特征选择的以上不足,借鉴有监督学习中删除冗余特征的思想和集成聚类思想,从统计学和集成聚类两个角度,研究无监督特征选择中删除冗余特征的方法。并将这两个删除冗余特征的方法与只考虑相关特征重要性排序的拉普拉斯算法相结合,设计出两个同时考虑不相关和冗余特征删除的最大相关和最小冗余的无监督特征选择算法LS-CORR (Laplasian Score and Correlation)和LS-EC(Laplasican Score and Ensemble Clustering)。在标准UCI数据集和人工数据集上,本文对LS-CORR和LS-EC算法分别进行了实验。实验结果表明这两个算法都能较好地处理无关和冗余特征较多的数据,得到维度较小的特征子集,且提高了数据集的聚类准确性。LS-CORR算法与LS-EC算法相比,LS-CORR算法删除冗余特征过程较简单,根据特征间的相关程度能快速地删除冗余特征;LS-EC算法通过聚类结果从簇与特征和特征与特征间的相关和冗余来综合考虑噪声特征的删除,得到了更小更优的特征子集。但LS-EC算法在集成聚类上降低了算法的效率,适合样本规模较少的数据。而后,本文将拉普拉斯和LS-CORR无监督特征选择算法应用于烟叶致香成分分析中,从烟叶致香成分数据的本质属性和分布分析其关键致香成分。并通过实验,与现有方法对比,说明这两种无监督特征选择算法应用于烤烟烟叶致香成分研究中的有效性、实用性和现实指导意义。本文最后对研究工作进行了总结,并指出了今后进一步的研究方向。