论文部分内容阅读
随着微阵列技术的发展和癌症基因表达数据的积累,从海量基因表达数据中选取特征基因用于癌症分类的研究引起研究者的广泛关注。然而由于基因表达数据的样本数量只有几十个而维数却高达上万个,基于机器学习和统计分析的传统分类方法容易出现过拟合或维数灾难的问题;此外,仅少部分基因与癌症的发生相关,基因表达数据中存在大量的冗余和不相关基因。从海量的基因表达数据中选择癌症类别相关的特征基因,对于癌症临床诊断、分类等提供重要的参考。特征选择作为处理基因表达数据的一种典型方法,从原始特征中仅选择与疾病类别相关的特征基因,不仅能够规避维数灾难,降低计算的复杂度,还能有效提升分类效果,并且所选择的特征基因还有明确的生物解释性。因此本文就基因表达数据的癌症特征基因选择方法,分别从单个特征评价、子集评分以及稀疏嵌入学习三个角度进行了研究,主要工作有:(1)将局部线性表示Fisher准则(Locally Linear Representation Fisher Criterion)这种特征提取方法改进为LLRFC score特征选择方法,同时结合特征间相关性分析进一步排除冗余,提出一种新的特征选择方法LLRFC score+。基于对LLRFC特征提取方法的分析,将其改进为一种对单个特征打分的Filter型特征选择方法LLRFC score。由于该方法没有考虑特征间的相关性,所选特征子集中仍有冗余特征。因此,利用皮尔逊相关系数,提出了一种能够滤除冗余的特征选择方法LLRFC score+。并将两种方法应用于9种不同类别的癌症基因表达数据,分别与Laplacian score、T-test和Fisher score三种方法选择的特征进行分类效果比对,结果发现LLRFC score和LLRFC score+两种方法分类准确率要比其他三种方法高。相比LLRFC score方法,LLRFC score+方法的分类效果更好,充分证明了我们所提出方法选择特征的有效性。(2)提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE(Subset-score Supervised Locally Linear Embedding)。有监督局部线性嵌入方法(SLLE)能够有效保持数据间的局部特性还充分考虑样本标签信息,在高维数据的分类中广泛应用,但其仅从单个特征评价的角度选择特征,所选特征集合并非最优分类特征子集,因此本文结合图论框架下迭代优化子集评分特征选择方法,提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE。并将其应用于6种不同类别的癌症基因表达数据,和基于特征评分的有监督局部线性嵌入特征选择方法FSLLE进行分类效果比较,结果证明从子集角度评分的SSLLE方法更有效,所选择特征的分类效果更好。(3)提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR(Joint Locally Linear Embedding Sparse Regression)。基于稀疏范数学习的方法能够有效用于特征选择,但稀疏方法是基于特征的全局结构,忽略了特征分布的局部结构。而局部线性嵌入学习方法LLE能够很好地保持特征间的局部近邻关系。因此将LLE方法和稀疏学习相结合,提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR,由原始特征与低维嵌入的变换矩阵的2,1范数作为“罚函数”加入目标函数进行特征的稀疏约束,最小化原始特征回归到其低维嵌入的目标函数,根据特征在回归函数中的重要性进行评判,选择贡献度大的特征组建特征子集。在6种公开的肿瘤基因表达数据集上与LLRFC score(本文所提第一种方法)、Laplacian score、Fisher score以及T-test等特征选择方法进行分类效果比对,JLLESR的分类效果最好。此外,这种方法不受类别标签和参数的影响。