代谢组学数据清洗中的缺失值处理和变量分类方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wangbuhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗是代谢组学进行数据分析之前的重要步骤,合理的数据清洗步骤可以让后续的数据分析工作更完善更有效的进行。在本文中就数据清洗中的缺失值处理和变量分类两个问题提出了新的方法:1.深入探讨了质谱数据中的缺失值模式,并提出了一种新的方法来生成模拟的质谱缺失数据集,相对现有的生成方法更加简单快捷,也更加贴合现实;提出了一种新的缺失值填补方法:在KNN过程中利用了分组信息以及左截断正态分布的特点,首先填补非随机缺失,接着使用自适应KNN来进行填补。在模拟代谢组学分析结果中说明,使用此经过改进的KNN方法可以有效的完成缺失值填补,同时也有助于后续的分析。2.提出了一种新的变量分类方法:D-C方法,这一变量分类方法主要从两个方向出发完成变量分类:自变量与因变量的相关性,变量之间的相关性。将变量分为三类:独特变量、共性变量和冗余变量。D-C方法主要使用Diffreg方法和CMELR-CSIS方法、主成分分析、相关性分析来完成变量分类工作。同时将此变量分类方法应用于多源数据数据处理的数据清洗步骤,可以有效地处理高维数据。通过模拟数据和实际数据检验证明使用此方法有助于后续的建模等程序。在基于质谱的代谢组学数据清洗中应用本文提到的以上两个方法有助于下游分析的完成,为代谢组学数据清洗提供了新的方法。
其他文献
目的探讨叶酸受体(FR)阳性循环肿瘤细胞(CTC)检测对肺癌的诊断效能。方法胸部CT检查提示可疑肺癌的孤立性肺小结节患者38例,术后病理诊断为早期肺癌29例、肺良性病变9例。术
徽州人受“朱学”影响,修谱之风愈加浓厚。《安徽绩溪瀛洲章氏宗谱》在2008年面世,其谱系部分对族人有一定实用价值,便于相互联系。但受多种因素制约,它又确实存在较多缺陷,行家多
本文是舒曼三首《浪漫曲》的调性分析。结合传统与近现代的思维模式从调性布局和调关系类型这两个方面进行分析,总结出这三首曲子的调性规律,为近现代和声的发展以及调性的扩
不能不说,去年秋季那股大规模的“扫黄”劲风为各地的文化市场拂去了许多污垢,风过之处,各地的非法出版物或被有关人员收缴,或被货主偷偷藏起,不再敢登大雅之堂,一些内容健康
<正> 如何看清经济形势,确定企业投资发展方向,将对企业近几年乃至长远发展产生较大影响。 中国有着有利投资的大环境:人民币汇率稳定;居民消费心理良好。社会总需求绶慢回升
近年来,西方学者以极大的热情研究了马克思主义在中国落地、发展和创新过程中所面对的哲学困境:马克思主义理论自身的哲学悖论;马克思主义中国化哲学维度缺失的原因;马克思主义中
近日来自晋江检验检疫局的最新统计数据表明:2004年,晋江出口鞋类企业克服了“工荒”和“电荒”的困难,应对了原辅材料大幅上涨的压力,鞋类出口的质量和档次有了提高。
面对全球金融一体化的趋势,美国银行先发制人,掀起并购浪潮,而此时日本则迎着金融风暴的狂潮,开启国门,引“狼”入室。如此行径,使人们不禁要问:是美国人越来越精了,还是日本