论文部分内容阅读
代谢物是生物体内参与、实现代谢过程的小分子有机化合物总称,与生命体的生理状态息息相关,包含了丰富的生物学信息。为从整体高度研究生物体内的各类代谢物质,近年来提出了代谢组学的概念,通过分析其在生理过程中所起的具体作用,以揭示背后的生物化学机理。与传统组学研究相比,代谢组学被认为可更为全面地展示生命体的真实生理状态过程,因此获得了学术界越来越多的重视。近年来,代谢组学被广泛应用于生物标志物识别、药物设计、毒理学以及环境科学等诸多领域中。代谢物经采集、检测获得的信号数据,被称为代谢物特征数据,是代谢组学研究的基本对象。为提取其中的生物学信息,一般采用机器学习算法对其进行处理。但代谢组特征数据具有:(1).维度较高,而样本数相对较小;(2).特征数据包含大量噪声,而仅有少量信号与目标生理状态相关的特点,传统方法往往难以直接获得令人满意的分析结果。因此需要引入特征选择算法对输入数据进行预处理。但另一方面,特征选择可视作特征加权在权值仅能取得{0,1}状态时的特殊形式。而研究表明,合适的特征加权可获得比特征选择更佳的学习算法性能提升作用。且权值数值定量描述了对应代谢物信号与目标生理状态间的具体关联信息,其对后续生物医学研究有着重要意义。因此我们使用特征加权算法对代谢组数据进行处理。代谢组特征数据维度较高,其加权设计属于复杂的大规模优化问题。在本研究中,我们使用计算智能方法对其进行有效解决。Memetic算法是计算智能体系中的最为重要的一类方法。通过合理调配全局优化过程与局部搜索策略,Memetic算法可在较少的计算资源内,获得比其它方法更佳的寻优结果。在深入分析Memetic算法结构的基础上,我们提出了泛化的MetaChain模型,有效提升了优化框架自由度。通过引入基于概率模型的算子调度机制,论文提出了两种高性能Memetic改进算法。在标准大规模测试函数集上的结果表明,其获得了比现有国际先进方法更佳的优化结果。通过使用提出的Memetic算法优化特征矢量权值设置,并将先进的机器学习方法以封装形式引入框架以评估训练性能,论文提出了针对高维代谢组特征数据的智能加权算法系统。此系统被用于原位肝移植色谱代谢组数据,以及海豹幼体血液代谢组特征数据的分析中,取得了比传统学习方法更佳的预测结果。而获得的权值矢量有效描述了各代谢物信号与目标生理状态间的关联。此外,通过将作为原因的生理状态,以及作为结果的生理状态,与代谢特征矢量间的权值进行复合,可作为相应代谢过程的完整描述,用于后续进一步的研究中。