论文部分内容阅读
代谢组学效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,以寻找代谢物与生理变化的相对关系。自提出以来,代谢组学的研究获得了长足的发展,广泛应用于功能基因组测定、药物设计、生物标志物识别等多个领域。分类学习是代谢组学数据最常用的分析方法之一,但由于代谢组特征数据具有样本少、维度高、数据非线性、噪声多等特点,传统分类学习方法难以获得令人满意的结果。针对这一问题,本文提出新型的基于复杂网络拓扑的特征提取方法(Feature Extraction Based on Complex Network Representation,NTFE)帮助提高代谢数据分类性能。NTFE算法先对每个样本构建网络,然后采用基于互信息的有监督特征选择方法和基于条件互信息的边修剪策略,减少样本噪声,最后提取样本网络拓扑结构特征作为分类依据,提升后续分类准确率。实验结果表明NTFE算法在原位肝移植色谱代谢组数据上可获得比传统分类学习方法更佳的预测结果。在 NTFE算法的基础上,引入遗传算法,将NTFE算法中的样本特征和参数作为染色体,分类准确度作为适应值,提出基于遗传算法和网络拓扑的特征提取方法(Network Topological Feature Extraction Based on Genetic Algorithms,GA-NTFE)。实验结果表明,GA-NTFE方法在保持NTFE方法精度的基础上,特征数降低了一半,运行性能提升了一倍,同时算法获得的特征加权值可以具体描述各代谢物信号与目标生理状态间的关联。针对代谢组学数据的分类问题,本文提出了两个基于复杂网络拓扑的特征提取算法。两个算法可以有效提高代谢数据的分类准确率,同时GA-NTFE算法可以得到维度较低的特征子集,这有助于厘清关键代谢物与目标生理状态关系,为生物医学相关研究提供支持。