论文部分内容阅读
DNA微阵列技术是生物芯片技术之一,它发展成熟且应用广泛,使得人们可以同时对大量基因进行检测,由此获得基因在不同实验条件下的表达水平。然而,事实上,现有的公共基因表达数据库中的基因表达数据均存在不同程度的缺失,这对后续分析造成严重不好的影响。简单剔除含缺失值的整个基因势必造成大量信息的丢失,周期长、代价高的重复试验也不可取。本文从以下几个方面开展了工作,内容如下:首先,从数据集的总体结构角度出发研究贝叶斯主成分分析法,它包括主成分分析、贝叶斯估计及迭代算法,通过缺失数据和模型参数之间不断的相互更新,最终达到收敛,得到缺失值的估计值。其次,从数据集的局部结构角度出发,依据相似基因共同表达原则,研究目前广泛应用的最近邻法及局部最小二乘法。但是这两种算法存在相似的缺陷,即缺失率较大的情况下估计精度大大降低。本文对这两种方法进行了改进,在缺失率较大的情况下,预填充符合条件的基因,扩大备选基因的范围,并按缺失率大小顺序估计。实验表明,算法改进效果显著。再次,从生物知识角度出发研究乙酰化模式回归法。依据是组蛋白乙酰化水平可能会改变染色质的折叠特性并为转录因子提供结合面,造成转录因子的活性很大程度上由组蛋白乙酰化在染色质中的状态来调控。将组蛋白乙酰化数据与基因表达谱数据相结合来选取邻近基因,进而估计缺失值。最后,从统计学方面及基因表达数据的后续分析方面,利用多种指标对以上算法进行评价。其中,本文重点且全面的对填充数据进行层次聚类,通过相应指标来衡量算法性能。另外,本文还将完整数据进行过滤,去除表达水平没有显著变化的基因,利用相同评价指标衡量缺失值估计算法在非完整数据集上的估计精度,分析算法的性能及适用范围。