基因表达数据的缺失值估计研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hstiantian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术是生物芯片技术之一,它发展成熟且应用广泛,使得人们可以同时对大量基因进行检测,由此获得基因在不同实验条件下的表达水平。然而,事实上,现有的公共基因表达数据库中的基因表达数据均存在不同程度的缺失,这对后续分析造成严重不好的影响。简单剔除含缺失值的整个基因势必造成大量信息的丢失,周期长、代价高的重复试验也不可取。本文从以下几个方面开展了工作,内容如下:首先,从数据集的总体结构角度出发研究贝叶斯主成分分析法,它包括主成分分析、贝叶斯估计及迭代算法,通过缺失数据和模型参数之间不断的相互更新,最终达到收敛,得到缺失值的估计值。其次,从数据集的局部结构角度出发,依据相似基因共同表达原则,研究目前广泛应用的最近邻法及局部最小二乘法。但是这两种算法存在相似的缺陷,即缺失率较大的情况下估计精度大大降低。本文对这两种方法进行了改进,在缺失率较大的情况下,预填充符合条件的基因,扩大备选基因的范围,并按缺失率大小顺序估计。实验表明,算法改进效果显著。再次,从生物知识角度出发研究乙酰化模式回归法。依据是组蛋白乙酰化水平可能会改变染色质的折叠特性并为转录因子提供结合面,造成转录因子的活性很大程度上由组蛋白乙酰化在染色质中的状态来调控。将组蛋白乙酰化数据与基因表达谱数据相结合来选取邻近基因,进而估计缺失值。最后,从统计学方面及基因表达数据的后续分析方面,利用多种指标对以上算法进行评价。其中,本文重点且全面的对填充数据进行层次聚类,通过相应指标来衡量算法性能。另外,本文还将完整数据进行过滤,去除表达水平没有显著变化的基因,利用相同评价指标衡量缺失值估计算法在非完整数据集上的估计精度,分析算法的性能及适用范围。
其他文献
我国上市公司进行高送转的现象具有普遍性,而伴随着高送转现象的普遍性,其中也存在着许多公司的内部人在公司实施高送转股利分配的前后进行其股份的减持,据统计,在2014年-201
元认知心理健康教育课从2010年至今已经在全国多所中学驻校服务过程中进行了成功的尝试,趋于成熟。本文详细阐述了元认知心理健康教育课的设置及特点、如何从心理健康教育入
<正> 党的十四届五中全会《建议》提出,在今后15年经济和社会发展中必须贯彻执行的重要方针之一是积极推进经济增长方式的转变,由粗放型经济增长方式向集约型经济增长方式转
在语文学习中借助现代信息技术的优势,将口语交际活动向课前准备、课后家庭交流以及与其他课型融合等方面拓展,能够提升小学生的口语交际活动的参与度,促进和培育小学生的语
涂料在出厂或工地进场之前,应按照规范对其各项性能参数进行检测。由于涂料的特异性,在送检时应保证其为密封的完整桶装样(呈粘稠状液体),并且部分涂料为多组分,因此必须要对
TN25 2005053633 光通信用塑料光纤及其系统应用=Plastic optical fiber for optical communication system and its application[刊,中]/ 武鹏(北京邮电大学光通信与光波技术
文章试图采用弗莱的原型批评理论,将该小说置于整个文学的传统中进行审视。通过对小说中牧师的人物形象与其圣经中原型约伯形象的类比分析,来阐释该人物对约伯这一原型继承和
党的十八届四中全会就依法治国作出了全面系统部署,为新时期政法工作改革发展指明了方向。提升政法领导干部法治思维能力是贯彻落实依法治国要求的切入点和契合点,也是实现政