高维生物学数据分析中的几个统计问题

来源 :南京医科大学 | 被引量 : 1次 | 上传用户:breeze001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术的发展给生物科学研究带来了革命性的契机,成千上万的基因(或蛋白等)的同时测定成为现实,这很快产生了庞大的微阵列数据。另一方面,随着分子生物学相关学科的迅猛发展,基因序列数据亦呈现出迅猛增长的态势。本研究借助统计学的方法和手段,从应用的角度出发,对微阵列数据的差异表达分析、判别分析以及基因序列代表性片段的筛选等问题进行了深入研究:第一部分,基于结肠癌数据库设计了两个模拟试验,考察了四种FDR控制程序,主要结论如下:(1)在“假设独立变量独立但维持现实的方差结构”时,四种程序在大部分情形下,均能将FDR控制在既定的检验水准下,同时又具有较高的检验效能。FDR控制由强到弱的顺序为BL≥BY≥BH≥ALSU,相应的检验效能从大到小的顺序为ALSU≥BH≥BY≥BL。(2)在保持变量间现实的协方差结构时,在大部分情形下,对FDR要么失控,要么以不同程度的牺牲检验效能为代价达到强控。每组样本量在20及以下时,四个程序已均无检验效能可言。通过对“正常成年男子和精子运动能力低下者精子蛋白表达差异研究”的蛋白质数据的分析,探索出了“变量粗筛→全局检验→单变量检验→局部多变量检验”的差异表达分析策略,发现了在组间差异表达的十个蛋白组合。第二部分,分别设计了高、中、低三个错误率水平的模拟试验,考察了K-fold CV、BS、LOOBS等九种方法在判别分析预测误差估计中的应用后认为:综合考虑估计的“偏性”和“误差均方”,3-fold CV和5-fold CV效果好且较稳健,推荐使用。通过对结肠癌数据的分析,探索出了“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略,并通过另两个数据集验证了上述策略的实用性。第三部分,将“HEV基因序列代表性片段的筛选”的专业问题转化为奇异矩阵比较的统计问题,并从以下三个视角进行了方法学探索:(1)改进了Korin’s统计量并用于片段的比较,得出“片段Ⅲ对全序列最具有代表性,可用于HEV基因分型”的结论,并用50%分层bootstrap抽样验证了方法的稳定性,用弃一法显示了方法对毒株的稳健性,进一步说明了结论的可信性。(2)用弃二法获取了矩阵特征根分布阵,并通过马氏距离直观比较各片段的特征根分布阵与全序列者的距离,结果亦显示片段Ⅲ最优。(3)构建了“记分统计量”,并通过Monte Carlo模拟获取其经验抽样分布,作统计检验后认为片段Ⅲ对全序列有较好的代表性,可用于HEV基因分型。最后,系统发育分析的结果显示基于全序列和片段Ⅲ将71株HEV分为同样的四型,并且基于片段Ⅲ的核甘酸平均差异性在型、亚型、株等三个水平上与基于全序列者取得了相似的结果,进一步从生物信息学的角度验证了统计学结论。综合上述分析,本研究认为:1.“变量粗筛→全局检验→单变量检验→局部多变量检验”是一个较为适用的微阵列差异表达分析策略。2.“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略不仅适用于两类判别,而且可用于多类判别。3.“记分法”是一个思想朴素、易于实施的统计推断方法,可用于基因序列代表性片段的筛选,指导病毒序列分型工作。本研究提出的策略和方法,较好地回答了生物学工作者的问题,值得推广应用。
其他文献
住宅区人口密度大,小区微环境的污染对人们的生产和生活造成严重的影响。近年来很多学者和专家围绕住宅区气体污染物扩散的问题相继开展了一系列的研究工作,包括风洞实验、现
为了在人员无法到达的位置进行探测,设计出以六旋翼飞行器为搭载平台的红外探测系统。因为国内外没有一家将红外可见光融合系统与六旋翼飞行器系统融于一体的科研单位,因此该
随着描述性翻译研究的兴起以及翻译的文化转向,译者主体性问题逐渐进入译学界的研究视野。而且越来越多的学者将其与其他相关理论相结合进行文本分析及理论拓展研究。因此,将译者主体性与相关理论相结合来研究中国经典文学译本对中国文化走出去来说不失为一个极佳的选择。本论文以操控论三要素为切入点,以《半生缘》为语料对金凯筠的翻译进行定性研究,深入探究在意识形态、诗学及赞助人等因素的影响下,译者如何操纵翻译过程并在
会变的手指 福州 赖薇食指食指碰碰,做只小鸡叫叫,叽叽叽。中指食指并拢,做把剪刀玩玩,嚓嚓嚓。
作为一个农村人口约占总人口2/3的农业大国,农村医疗卫生体制改革成效将在较大程度上影响、乃至决定着我国医疗卫生体制改革的总体成败。现阶段,我国农村医疗卫生仍为国家医
施工企业是建筑安装施工活动单位,薪酬管理是施工企业管理的重要组成部分,要最大化发挥薪酬管理在施工企业管理中的作用,必须使现有的薪酬管理制度劳资兼顾,互利互惠,才能保
目前,我国构建了两级新型城市卫生服务体系并实施社区医院首诊制和转诊制度以解决“看病难,看病贵”这一民生问题。然而在实际中,普遍存在三级一类的大医院人满为患、社区医
以啮合理论和电磁学理论为基础,通过空间坐标变换原理,建立了机电集成超环面传动蜗杆齿槽方程,运用电磁场理论推导出了机电集成超环面传动蜗杆磁场空间分布的计算公式,利用该公式
城市道路交通网络为一个典型复杂网络,不同程度的攻击与破坏使城市交通网络的性能发生很大的变化,从复杂网络考虑城市道路交通网络的可靠性及其重要。以长沙市为例,运用ArcGIS生
随着中国旅游目的地之间的竞争日益激烈,目的地形象营销已成为目的地增强市场竞争力的有效手段之一。在此背景下,如何面向细分市场开展目的地形象精准营销成为重要的研究课题