论文部分内容阅读
代谢组学定量的分析生物体内的代谢产物,并对代谢产物与生理病理变化之间的关系进行研究。代谢组学数据中包含大量的噪音属性和无关属性,将数据挖掘技术应用于代谢组学数据中,有助于降低数据的复杂度,发掘潜在的代谢标志物,进而对疾病的诊断和临床应用有着重要的辅助作用。SVM-RFE是一种基于SVM的递归特征消除算法,通过支持向量来计算每个特征的权重。代谢组学数据中的噪音属性很可能会对SVM最优超平面的构建产生影响,进而影响到对特征的评价。因此,本文提出了一种基于互信息和人工变量的MI-SVM-RFE特征选择方法,在SVM-RFE特征选择之前使用人工变量-互信息的方式进行滤噪,使得特征权重的计算更为精确,进而筛选最优的特征子集。将MI-SVM-RFE算法应用于肝病代谢组学数据上,筛选出了34个具有显著区分能力的代谢产物,在区分肝炎、肝硬化、肝癌时,MI-SVM-RFE算法的平均准确率为74.33±2.98%,高于SVM-RFE算法的72.00±4.15%。对于SVM分类器,样本数量不平衡问题可能会导致各类样本中的支持向量数量不平衡或支持向量分布不平衡,从而使得SVM对少数类的样本分类效果较差。因此,本文在使用SVM-RFE特征选择方法时引入EFSBS的思想,提出了EFSBS-SVM-RFE算法,该算法有助于对不平衡数据的分析和理解,更好的筛选生物标志物。将EFSBS-SVM-RFE算法应用于品种初烤烟叶化学成分检测数据上,筛选出了15个富含2类样本区分信息的化学成分,较好的区分了两类不同品种的烤烟。SVM-RFE是一种后向的特征选择方法,基于多变量分类器对特征空间不断优化。FFS-ACSA是一种前向的特征选择方法,基于单变量分类器,考虑了特征之间的互补性。为了更好的筛选具有区分能力的特征,建立更为有效的分类模型,本文将FFS-ACSA与SVM-RFE相结合,提出一种组合的特征选择方法Forward-RFE,充分利用前向特征选择方法FFS-ACSA和后向特征选择方法SVM-RFE的优势,在四组公共数据集上对该算法的性能进行了验证。