论文部分内容阅读
微阵列技术的发展给生物科学研究带来了革命性的契机,成千上万的基因(或蛋白等)的同时测定成为现实,这很快产生了庞大的微阵列数据。另一方面,随着分子生物学相关学科的迅猛发展,基因序列数据亦呈现出迅猛增长的态势。本研究借助统计学的方法和手段,从应用的角度出发,对微阵列数据的差异表达分析、判别分析以及基因序列代表性片段的筛选等问题进行了深入研究:第一部分,基于结肠癌数据库设计了两个模拟试验,考察了四种FDR控制程序,主要结论如下:(1)在“假设独立变量独立但维持现实的方差结构”时,四种程序在大部分情形下,均能将FDR控制在既定的检验水准下,同时又具有较高的检验效能。FDR控制由强到弱的顺序为BL≥BY≥BH≥ALSU,相应的检验效能从大到小的顺序为ALSU≥BH≥BY≥BL。(2)在保持变量间现实的协方差结构时,在大部分情形下,对FDR要么失控,要么以不同程度的牺牲检验效能为代价达到强控。每组样本量在20及以下时,四个程序已均无检验效能可言。通过对“正常成年男子和精子运动能力低下者精子蛋白表达差异研究”的蛋白质数据的分析,探索出了“变量粗筛→全局检验→单变量检验→局部多变量检验”的差异表达分析策略,发现了在组间差异表达的十个蛋白组合。第二部分,分别设计了高、中、低三个错误率水平的模拟试验,考察了K-fold CV、BS、LOOBS等九种方法在判别分析预测误差估计中的应用后认为:综合考虑估计的“偏性”和“误差均方”,3-fold CV和5-fold CV效果好且较稳健,推荐使用。通过对结肠癌数据的分析,探索出了“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略,并通过另两个数据集验证了上述策略的实用性。第三部分,将“HEV基因序列代表性片段的筛选”的专业问题转化为奇异矩阵比较的统计问题,并从以下三个视角进行了方法学探索:(1)改进了Korin’s统计量并用于片段的比较,得出“片段Ⅲ对全序列最具有代表性,可用于HEV基因分型”的结论,并用50%分层bootstrap抽样验证了方法的稳定性,用弃一法显示了方法对毒株的稳健性,进一步说明了结论的可信性。(2)用弃二法获取了矩阵特征根分布阵,并通过马氏距离直观比较各片段的特征根分布阵与全序列者的距离,结果亦显示片段Ⅲ最优。(3)构建了“记分统计量”,并通过Monte Carlo模拟获取其经验抽样分布,作统计检验后认为片段Ⅲ对全序列有较好的代表性,可用于HEV基因分型。最后,系统发育分析的结果显示基于全序列和片段Ⅲ将71株HEV分为同样的四型,并且基于片段Ⅲ的核甘酸平均差异性在型、亚型、株等三个水平上与基于全序列者取得了相似的结果,进一步从生物信息学的角度验证了统计学结论。综合上述分析,本研究认为:1.“变量粗筛→全局检验→单变量检验→局部多变量检验”是一个较为适用的微阵列差异表达分析策略。2.“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略不仅适用于两类判别,而且可用于多类判别。3.“记分法”是一个思想朴素、易于实施的统计推断方法,可用于基因序列代表性片段的筛选,指导病毒序列分型工作。本研究提出的策略和方法,较好地回答了生物学工作者的问题,值得推广应用。