论文部分内容阅读
特征选择的目的在于选出能够较好表示类别的相关特征构成的优质特征子集,是克服“维数灾难”的一种数据预处理过程,本质是一种降维技术。目前,特征选择已广泛应用于计算机视觉、图像处理、文本挖掘、机器学习和基因表达谱数据分类等众多领域。特征基因选择则是特征选择方法在基因表达谱数据的应用,目的是找出最相关的致病基因,辅助诊断和治疗疾病。基因表达谱数据具有“高维小样本”特性,并且获取其样本标签的成本高昂,该数据存在大量没有类别标签的样本和少量的有类别标签的样本。针对基因表达谱数据的上述特点,本文对其展开了半监督特征基因选择算法的研究,通过充分挖掘有标签和无标签样本数据的内蕴信息,提高其分类或聚类精度,以便日后能够更好地应用于医学辅助诊断。所做工作如下:(1)深入研究基于流形的半监督降维框架和各种特征选择算法,总结了实现半监督特征选择的一般方法,尤其是半监督图嵌入刻画流形的具体方法;(2)由于数据的局部结构比全局结构更有利于降维,而传统的基于局部边界最大化准则的特征选择算法并未考虑数据分布的全局几何结构以及类别和特征之间的关系,基于半监督流形学习、谱图理论和信息论,本文提出了一种基于局部判别边界最大化的半监督特征选择算法,简称semi MM。并设计了一种半监督特征选择和半监督分类实验环境设置方法,在五个基因谱表达数据集上进行分类对比实验,结果表明semi MM具有很好的鲁棒性和良好的分类精度。(3)同样从数据的局部结构出发,由于欧氏距离不能合理刻画呈现全局非线性结构的数据集的内在流形结构,本文还提出一种基于流形距离的半监督特征选择算法,简称MDFS。通过在三个公共基因表达谱数据集上的聚类实验表明,MDFS整体优于LSDF,说明不同的基因表达谱数据集其分布不一样,是一种对基因谱表达数据内在分布的探索。