基于最大信息系数的复杂疾病全基因组关联算法研究

被引量 : 12次 | 上传用户：wjmwjm009

【摘要】

：

全基因组关联研究是人类基因组计划完成后实施的一种对复杂疾病的成套DNA全基因组测序和扫描计划,以试图发现疾病的基因变异和单核苷酸多态性,研究并确定疾病易感区域和相关

【作者】

：

刘汉明

【发表日期】

：

2015年01期

【关键词】

：

全基因组关联研究最大信息系数生物标记计算复杂度统计性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

全基因组关联研究是人类基因组计划完成后实施的一种对复杂疾病的成套DNA全基因组测序和扫描计划,以试图发现疾病的基因变异和单核苷酸多态性,研究并确定疾病易感区域和相关基因,寻找疾病标记物,实现疾病的早期诊断和有效的个性化治疗,开发新的药物和采取特异性防治措施。此类研究是在全基因组层面上开展的多中心、大样本和反复验证的基因与疾病的关联研究,试图全面揭示疾病发生、发展与治疗相关的遗传基因。为达到关联研究的目的,许多有前景的算法或专用工具软件相继问世。虽然现有算法在计算和统计学上被验证为有用工具,但有研究指出它们在通用数据上的表现还存在较大的不明确性。同时,由于全基因组数据本身具有数据量庞大、离散等特殊性,使得现有算法在算法效率、统计功效和假阳率等方面并不尽人意,所以,进一步发展新的全基因组关联研究算法仍然是生物信息学研究人员需要不懈努力的方向。为此,本文开展了以下研究工作:(1)分析和研究了最大信息系数(Maximal Information Coefficient,MIC)。MIC是一种新颖的统计方法,它能够很好地满足相关变量分析中的公平性和通用性,明显优于常见的皮尔逊系数、Spearman系数、互信息、CorGC和最大相关系数,因此本文将该方法引入全基因组关联研究。本文从数学上讨论了MIC原理,证明了它的一个重要递推式,详细介绍了MIC算法的实现步骤,最后分析了把MIC直接引入到基因型数据的全基因组关联研究的不足和基于MIC的全基因组关联研究的可行性。(2)提出了基于MIC的疾病-SNP关联搜索算法MICSNPs。MICSNPs使用蒙特卡洛置换检验把MIC值映射到P值,消除了MIC值波动的影响,同时结合基于滑动窗口二分搜索算法来节约算法时间(该算法时间约为线性搜索的0.58%)。为了使MICSNPs在算法统计功效、假阳率和算法时间三者之间取得最佳折衷,本文还研究了蒙特卡洛采样数与上述三项指标之间的关系,发现了最佳的蒙特卡洛采样数为2~4倍的生物标记数量,与样本大小无关。基于真实全基因组关联数据和仿真数据的测试结果表明,在把蒙特卡洛采样次数缩减为标记数量的4倍并使用基于滑动窗口的二分搜索算法后,MICSNPs无论在计算性能及统计学上均是可行和有效的,且其整体性能优于现有算法。(3)提出了基于MIC的疾病-SNP关联搜索算法mBoMIC。首先,通过对传统Bagging算法的修改,本文提出了一种mBagging(modified Bagging)算法,其中心思想就是把传统Bagging算法相同的袋内和袋外自举抽样数据量改变为不同,且要求袋内数量少于袋外数量。由于较少的袋内数据在保证最佳统计功效的同时降低了计算复杂度,而较多的袋外数据又进一步提高统计功效,所以mBaggnig算法达到了在缩减算法时间的前提下提升统计功效的目的。另外,较少的袋内数据,减轻了传统Bagging算法的“过拟合”现象,因此,mBagging算法的假阳率比传统Bagging算法的低。本文提出的mBagging算法的主要贡献是把原本矛盾的“统计功效”、“假阳率”和“算法时间”三个指标同时得到了较大的改善。接着,使用本文提出的mBagging算法对MIC方法进行组合,形成了一种新型的疾病-SNP关联搜索算法mBoMIC。mBoMIC算法结合了MIC和mBagging算法的优点,克服了MIC的低统计功效并避免了MIC值的波动现象。在500组数据上,本文将分别使用20、400作为袋内、袋外数据抽样数的mBoMIC算法与使用抽样数为400的传统Bagging算法相比较,mBoMIC算法的平均算法时间减少了80.3%、平均统计功效增加了15.2%、平均假阳性率减少了31.3%。最后,采用仿真和真实数据测试mBoMIC算法,结果表明新算法比现有算法具有更好的统计功效,在生物标记选择上是一种可行的算法。(4)构建了基于MIC的疾病相关差异表达基因/microRNA识别算法。全基因组关联研究算法不仅可用于探索基因型数据,也能分析基因/micro RNA表达数据。本文利用MIC构造了基因/microRNA表达谱分析算法,用于全基因组微阵列表达数据中挖掘与疾病关联的基因/microRNA。本文采用新算法分析了一个房颤-对照的基因表达数据和一个瓣膜性心脏病-对照的microRNA表达数据,识别出41个房颤差异表达基因,其中有14个基因是已有工作未发现的新差异表达基因。信号通路和富集分析表明,这些差异表达基因与房颤高度相关;发现了2个强烈差异表达的microRNA,其中hsa-miR-221*是已有工作未发现的新差异表达microRNA。本文顺利地把MIC引入到了全基因组关联研究,克服了MIC的不足,建立了MICSNPs、mBoMIC和微阵列基因/microRNA表达谱分析等多种有效算法,为从全基因组数据中搜索和识别复杂疾病关联的生物标记提供了重要的计算工具。

其他文献

藏传佛教理论的生态功能探析

藏传佛教继承并创新了佛教的环保理念,不仅在维护藏族地区生态平衡,美化生活环境,创造和谐社会等方面发挥了积极的作用,而且对当今生态环境保护与和谐社会建设亦具有一定的启

期刊

藏传佛教生态理念生态功能

综合性大学学生压力源及对心理健康的影响

目的探讨大二、大三学生压力源和对心理健康的影响。方法采用自制大学生压力源情况调查表,症状自评量表(SCL-90)对大二、大三的386名大学生进行了测查。结果13项压力源的发生

期刊

大二、大三学生压力源心理健康比较研究

日、唐律令官人出身制度的比较研究

通过日、唐律令官人出身制度的分析比较可以看出,古代日本的贡举(科举)实际上是作为荫位制的一种附属形式而存在,从这个侧面可以发现日、唐政体的异同,探究古代日本政治体制

期刊

荫位科举官人出身方式政体运营

某300MW汽轮机三段抽汽压力高的原因及处理措施

监视段压力作为汽轮机重要的安全监视参数,尤其是机组需要维持高负荷运行时,更是必须重点监视的参数,若抽汽压力超限将限制机组出力。某300MW汽轮机运行中由于三段抽汽压力高

期刊

抽汽压力超限措施

异样的诗情:苏联时期诗电影的民族性研究

诗电影是自电影诞生以来电影艺术家们孜孜探索和实验的电影样式,从最初的影响较大的欧洲先锋派电影就率先探索将电影与诗结合的可能性,但是,此派因其对影像的先锋实验性而陷

期刊

诗电影苏联民族性

跨语言信息检索技术的研究与实现

在信息检索领域，由于当今海量信息资源所用语种的多样性和用户所掌握语言的差异性，导致人们在进行文本信息检索的时候产生语言障碍问题。而随着用户对多语言信息综合获取的需求

学位

跨语言检索提问式翻译语义映射Lucene

神奇的消食通便操

<正> 我退休以后,经常胃胀、腹胀,吃了饭难消化,而且出现了便秘。虽经常吃一些泻药,但只能临时奏效,使之缓解,却不能从根本上解决问题。我决定通过自身运动的方法来加以解决

期刊

胃肠蠕动

客厅吸顶灯的设计

客厅是家庭会客、娱乐的场所,也是一个主要的对外交流窗口,体现着整个家庭气氛。从家庭本身来说,也希望通过客厅来展示主人的身份地位及欣赏品位。吸顶灯作为客厅必不可少的

期刊

客厅吸顶灯设计创新

珠心算练习对儿童数字记忆能力的影响

目的观察珠心算练习对儿童数字记忆能力的影响,从而说明珠心算练习对儿童数字的记忆能力有提高作用。方法采用基本认知能力测验的方法来观察珠心算练习儿童与非珠心算练习儿

期刊

珠心算记忆能力迁移能力

文化价值观视野下的中美关系

文化价值观是一个国家外交思想的背景,它深刻地影响着国际关系。就中美关系而言,中国文化价值观中对中美关系有影响的因素是"群体"优先、民族复兴、国家统一以及追求和平等观

期刊

中美关系文化价值观外交政策

基于最大信息系数的复杂疾病全基因组关联算法研究

与本文相关的学术论文