基因表达谱缺失数据填补融合方法及策略研究

来源 :第三军医大学 中国人民解放军陆军军医大学 | 被引量 : 1次 | 上传用户:sdmligq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景和意义:基因表达谱缺失数据的大量存在,严重影响后续分析结果的准确性;如何根据已有数据集特征进行缺失数据的有效填补及策略构建和不同填补方法对基因表达谱后续分析目的影响评估是功能基因组学和肿瘤基因组学研究中极具重要科学意义的研究内容,也是统计学和生物信息学中数据分析研究领域的重难点。上述问题的有效解决,使得分析技术的性能很有可能因为更为精确的缺失填补分析策略而进一步提高,使得研究者可以更好的利用基因表达谱数据的信息,更为有效地进行疾病诊断与治疗。研究方法:采用统计学、计算机科学和生物医学等多个交叉学科的理论研究方法和文献研究方法,对课题的主要内容进行探索与证实。具体通过将基于支持向量回归的非参多重填补融合方法和非参缺失森林填补法对6个不同缺失机制下、不同缺失比例下的不同序列类型的基因表达谱缺失数据进行估计和填补,并将填补结果与K邻近距离法、贝叶斯主成分分析法和多重填补方法进行比较;在一定填补策略构建原则的基础上,结合不同填补方法的性能,以构建不同序列数据集、不同缺失产生机制、不同缺失比例情况下的填补策略,并阐明不同填补方法对基因表达谱后续不同分析目的的生物学影响。研究结果:(1)对于不同特点的基因表达谱缺失数据集分别使用五种方法来填补,通过比较分析后我们发现:标准化均方根误差随着缺失比例的增加而增大:非时间序列的肝癌数据集,缺失比例为30%时,贝叶斯主成分分析法、K邻近距离法、非参缺失森林法、蒙特卡洛多重填补法和基于支持向量回归的非参多重填补法的标准化均方根误差(Normalized Root Mean Square Error,NRMSE)分别为0.2877、0.3335、0.2018、0.2550和0.1621;随机缺失下时间序列的乳腺癌数据的缺失比例为20%时,五种填补法的NRMSE依次为0.1810、0.3874、0.0780、0.0917和0.0744;非时间序列的淋巴癌数据集,缺失比例为10%时,五种填补方法的类结构保持度(Conserved Pairs Proportion,CPP)值依次为0.8762、0.8753、0.8972、0.8811和0.9797。总体上,支持向量回归的非参多重填补法(Support Vector Regression Nonparametric Multiple Imputation,SVR-NPMI)的表现较为稳健、填补效果最好,其次为非参缺失森林填补法、多重填补法,K邻近距离法效果最差,其它数据集的填补效果与这两个数据集一致。(2)类结构保持度随着数据集缺失比例的增大而呈现下降的趋势,如果运用不恰当的填补方法会对后续基因表达谱的研究起误导性作用,不同的填补方法中,SVR-NPMI的表现较为稳健,使用SVR-NPMI填补数据集的聚类效果优于其它四种方法。(3)通过实例分析,总结了不同基因表达谱缺失数据集的填补策略,SVR-NPMI方法在各种因素影响下都有较好的填补效果,但该方法计算复杂度高,填补时间长;非参缺失森林方法在基因少、实验条件多的基因表达谱数据集中可以取得较好的填补结果;MI方法在基因表达谱缺失数据集呈现正态、低维特征且缺失比例低的情况下填补效果可以接受;贝叶斯主成分分析法和K邻近距离法的填补效果是否优劣则与重要参数的选择有关。研究结论:本研究提出的SVR-NPMI融合方法发展和丰富了基因表达谱缺失数据的填补模型,推动了生物信息学技术分析领域中新方法的发展,为生物医学等领域大数据的分析提供方法学的借鉴和参考,具有重要的学术理论价值;首次构建的针对基因表达谱缺失数据的填补分析策略和开发的《基因表达谱缺失数据填补分析系统》软件,可以帮助研究者更好更快的确定适合其数据集的填补方法,更为方便快捷地进行数据分析,提供参考与服务。
其他文献
长江下游下蜀系黄土丘陵地区,近年来发展了许多新茶园,但经常发现有成片茶树生长不良或死亡的现象。一部分是由于在加灰肥,而变为石灰性或施熏土而变为碱性的黄土性黄棕壤上
我们学校结合本地实际,开展了多种形式的科技教育活动.活动中特别重视发挥学生的主体作用,让学生在参加丰富多彩的环保活动中学会关心,培养责任感,形成良好的行为习惯,并在实
分级红茶是一个新品种,过去我省是生产传统工夫红茶的,对分级红茶制造,缺乏实践经验。为了适应贸易的需要从1963年起,在各级党政领导的重视和关怀下,各有关部门派员共同参与
大学生绿色营已历四届了.1999年绿色营远征新疆,主题是探讨生态旅游和自然保护的关系,重点是考察正在大搞旅游的哈纳斯湖.这次规模比往年要大,共45人.包括北京、香港、乌鲁木
研究目的酒精对肝脏有明显的毒性作用,酗酒是导致酒精性肝病(ALD)的首要因素。酒精性脂肪肝(AFLD)是ALD的一种早期表现,可以发展为酒精性肝炎、酒精性肝纤维化,甚至酒精性肝硬化。近年来我国酒类产量不断增加,酒精性脂肪肝在我国呈现逐年增多的趋势,已成为一大医学和社会问题。AFLD发病机制非常复杂,尚不完全清楚,目前临床上无有效的治疗药物,因而研发能够防治AFLD的药物具有重要的意义。大蒜油为大蒜
适用年级:1-6年级rn适用学科:社会、科学、家政rn技能:分析、归类、比较、描述、绘图、评价、知觉发展、列举、媒体运用、观察、动作技能、报告、综合rn时间:1-2课时rn团体规
[英国《新科学家》周刊网站5月8日报道]题:气候变化已使世界上部分地区热得让人不堪承受rn全球变暖已造成世界部分地区热得让人不堪承受,这比气候模型预测的时间早了几十年.
期刊
当我读到由浙江省桐乡市公园路小学朱长林、楼振华和振兴西路小学沈爱忠共同编著的《小学环境素质教育》一书,心中油然生起的是深深的钦佩之情!这种钦佩并非在于小学教师做了大