论文部分内容阅读
面向长期积累的海量生物数据,对生物网络进行建模和系统优化研究,能进一步探究生物网络所包含的深层次信息,这对于疾病诊断、药物研发等具有十分重要的意义。随着生物数据规模的增加,如何将生物技术产生的实验数据与计算机科学、控制理论等多领域信息相结合,利用机器学习方法推动对生物网络的辨识与重构研究是当前的研究热点也是难点之一。本文面向生物网络,对当前所面临的网络参数辨识、网络重构以及聚类分析等问题展开了以下研究:1)启发式算法由于其应用范围广,对于计算模型要求低的特点得到广泛的应用。和声搜索算法作为全局优化算法中性能较好的方法,因其不依赖于初始值的选择以及相比于其他启发式算法具有更强的全局搜索能力的优势,在生物网络的参数辨识中逐渐得到关注。为了在D-Optimal原则下寻找ODE(Ordinary Differential Equation)模型的最优输入信号,本文提出了一种具有精英策略的和声搜索算法,同时结合所设计的最优输入信号,来获得生物网络模型的最优参数。针对具有23个未知参数的信号转导网络仿真实验结果验证了本文方法具有较快的收敛速度以及较高的准确性。2)模型融合是当前提高生物网络重构准确性的重要研究方向,准确的网络推理结果能够找到基因之间的调控关系,从而能极大地辅助疾病致病源的发现研究。本文结合基于树搜索的机器学习方法以及皮尔森相关系数,提出了一种新型的加权方法对三种基础模型的结果进行融合。在DREAM4和DREAM5挑战数据集以及大肠杆菌数据集中都表现出良好的推理准确性,并在多源信息融合上进行了验证。3)单细胞实验数据相比于第二代测序技术得到的数据,能够更精确地反映单个基因的状态而不是统计意义上的总体平均值,对于发现未知细胞亚型以及细胞聚类研究可以提供更多的信息。为此,本文提出了一种新型的聚类算法,结合三种距离计算方法构建了新的距离矩阵,同时结合部分少量的已知信息选择k-m-cans的初始化参数k以及聚类簇中心点。最后将本文提出的方法在多种不同大小的单细胞数据集上与多种聚类方法进行了比较,验证了所提出的聚类算法的准确性以及稳定性。