论文部分内容阅读
控制论、系统论思想与模式识别相关方法广泛参与诸多交叉学科的研究。控制论、系统论可以指导对各种实际问题的认知,模式识别相关方法则构成了具体的解决方案。本文将控制论、系统论与模式识别相关方法应用于一类系统生物学研究。具体的,以基因在细胞形态变化中的调控作用为主要研究对象,以在果蝇培养细胞种系中进行的大尺度高信息量RNA干扰筛选(RNAi HCS)为应用背景,我们分析并解决了RNAi HCS数据分析中的一系列问题,包括细胞形态表现型在线发现、表现型在线建模与确认、针对不同表现型的特征选择与细胞分类、综合单个细胞分类结果的基因功能建模等。我们将本文设计的一系列方法组合为一套完整的数据分析流程,并协助生物学者对近200万单个细胞图像进行综合分析,提出了“细胞形态表现型具有定型化性质”的生物学假设。本文提出利用高斯混合模型对表现型建模,改进了利用间隔统计估计聚类个数的方法、设计了迭代表现型兼并流程以比较新数据集与已知表现型的异同、利用最小分类误差方法实现表现型模型在线更新,最终形成了在线表现型发现算法。这种方法随着新数据的不断产生辨认新颖表现型,并对其进行建模与确认。当前的RNAi HCS数据分析流程大多使用手工挑选的典型表现型及代表细胞作为训练集,但数据集规模的不断扩大使手工分析难以反映整个数据集的完整风貌,我们的方法有效的解决了这一问题。为了考察整个数据集中各个细胞与典型表现型的相似程度,我们设计了“支持向量机迭代特征消去-遗传算法”联合特征选择方法,利用精简的特征集合描述表现型形态并使用以高斯径向基函数为核函数的支持向量机进行细胞分类。根据支持向量机对每个细胞形态的分析,我们执行一系列质量控制、统计分析及数据筛选与整合操作,为针对每个基因的RNAi实验挑选出一个带有稳定形态特征的细胞群落;根据可重复性细胞群落的形态特征生成每个基因的量化形态分值,并利用聚类分析辨别在细胞形态变化中发挥不同作用的基因与基因家族。本文以控制论、系统论为指导,整个数据分析流程中综合运用多种模式识别、统计分析技术,形成了完整、高效的RNAi HCS数据分析流程。在数据分析方案设计中注重动态与静态分析的对立统一,实现了典型表现型在线发现与在线建模;注重利用统计学方法发掘微观与宏观层面的联系,系统化处理单个细胞形态作为分析基因功能的基础;注重对单一层面分析结果的升华,努力通过特定应用的分析结果掌握普遍规律,提出并初步验证了细胞形态表现型具有定型化特点这一假设。