论文部分内容阅读
基因微阵列数据中包含的遗传信息为疾病的预测诊断提供了新的方法,但是其高维度、高噪音、高冗余、小样本的特点,对传统模式识别方法提出了挑战,因此特征选择成为该领域的研究热点,亟待设计新的结合特征选择技术的模式识别方法来分析和处理这类数据。本文针对基因微阵列数据的特征选择进行了研究,提出了一种基于聚类分析和智能优化的混合特征选择方法。首先,对数据进行Filter处理,初步去掉噪声信息;其次,依据相关性测度作为相似度矩阵对基因进行AP聚类,依据一种去冗余算法对聚类结果类内去冗余,将各个类内剩余的基因组合形成基因子集;然后,通过基于粒子群优化的Wrapper特征选择方法在该基因子集空间中进行搜索,选择出优化后的特征基因,最后进行分类。在六个常用的基因微阵列数据集上进行了实验。实验对整个系统内部如何组织、相似性度量的选择及聚类结果的抽取问题进行了探讨,并与常用的方法进行了对比,结果表明了本文所提出方法的有效性。