论文部分内容阅读
研究背景:随着近代分子生物学实验技术和计算机技术的迅猛发展,以及人类基因计划(HGP)的实施使得人类基因组草图(HGD)绘制的顺利完成,标志着现代生命科学研究已经进入了后基因组时代,研究者把关心的焦点由结构基因组学转向了功能基因组学。基因芯片(gene chip, microarray)作为一种新型的高通量的检测技术方法,可以同时测量成千上万个基因的表达水平,已成为“后基因组时代”研究基因与基因间相互作用的一个强有力的工具。如何对该技术产生的海量实验数据进行准确而合理地分析,已成为有效应用该项技术的主要瓶颈问题,并已成为当前生物信息学的重要研究内容和主要研究方向。目前针对基因表达型芯片的图像处理和数据分析的研究尚处于起步发展阶段,特别是作为微阵列芯片数据分析早期阶段进行的标准化(或称为归一化)问题,还需要有更多的完善和创新。标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响,它对基因芯片的后续分析起着重要的作用。目前虽已有了一些标准化方法,但如何根据芯片的质量选择一个最好最优的方法还存在着某些困难。本研究的目的是提出几种标准化方法模型,重点对其中四种模型的标准化策略特性进行分析与比较,在此特性基础上针对不同密度类型的基因表达芯片,就如何选择最佳标准化方法进行研究,最终建立起基因芯片表达数据的标准化策略。方法:标准化是基因表达芯片数据分析中的一个重要方面,对后续的聚类等统计分析有着重要的影响。这里我们重点针对四种标准化方法模型:参照点标准化(CSN)、总强度标准化(TIN)、局部加权线性回归标准化(LWLRN)和局部均值化标准化(LMN),详细分析了这四种标准化方法模型各自具有的特性;利用我们常用的图像处理和数据分析软件(GenePix Pro4.0、Excel、Spss等)进行分析得到标准化因子;最后将其应用到不同密度的基因表达型芯片的实验数据中,从而对各自方法及其结果进行分析与比较,寻找到最佳标准化方法。结果:应用于不同密度芯片表达数据的四种标准化方法都能有效地减少系统变异产生的影响,使处理后数据更加具有可比性和可靠性,通过分析我们发现:参照点标准化方法对于密度小且表达稳定的芯片有很好的效果;总强度标准化方法应用于信号强度分布相对较均匀的低密度芯片较好;局部加权线性回归标准化方法在依赖于强度的高密度芯片中可以很好地减少背景噪声强度带来的影响;局部均值化标准化方法可<WP=9>以有效地解决总强度分布极为不均的高密度芯片。结论:本研究提供的标准化分析方法针对不同密度类型的表达芯片是可行的,在减少系统变异基础上能得到可靠的基因表达水平或表达比,更为准确地找出芯片上有显著性差异表达的基因,为后续的分析研究提供更为准确的更为重要的线索。不过标准化方法还处于起步和发展的阶段,目前还没有统一的标准,需进一步完善;但随着非线性技术的不断完善,计算机软硬件的快速发展,芯片海量数据分析处理方面的研究必将得到新的突破。