全基因组关联研究中的上位性检测算法研究

被引量 : 0次 | 上传用户:q525456781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际人类基因组计划的完成,以及高通量基因分型技术的快速发展,人类遗传学研究进入了一个新的发展时期。同时,全基因组关联研究的发展,为研究人类性状/复杂性疾病揭开了新的序幕。上位性是指两个或多个基因(或单核苷酸多态性)之间相互作用对表型的影响。上位性作为复杂性状遗传研究体系的一个重要组成部分,近年来受到了广泛关注,大量算法被应用于解决上位性检测问题。但是针对全基因范围内的、大规模的数据来说,现有的算法仍存在检测准确率较低、假阳性较高等问题。本文主要致力于研究全基因组案例-对照研究中的上位性检测算法。针对现有基于马尔可夫覆盖两步法的上位性检测算法存在假阳性较高,样本有效性较低等不足,本文提出了一种新的用于全基因组关联研究中的上位性检测算法——IMBED(Improved Markov Blanket for Epistasis Detection)算法。该算法将G2作为衡量变量之间关联性强度的标准,设计了移除变量个数的计算公式,通过有效地移除与目标变量无关的和关联性弱的变量,减小了搜索空间。实验结果表明该算法有较好的检测效果,减小了假阳性,一定程度上提高了样本有效性,能够用于全基因范围的数据。为了克服两步法检测效率和样本有效性不够高的情况,本文基于马尔可夫覆盖分治法,提出了一种新的上位性检测算法——PCED(Parents and Children basedMarkov blanket for Epistasis Detection)算法。该算法将致病SNPs的识别问题分解为多个子问题,然后逐个解决每个子问题。通过每次检测一个与疾病关联的单核苷酸多态性(SNP),循环k次来达到完成全基因组病例-对照研究中k-way致病SNPs检测的目的。在模拟疾病数据集和真实全基因组数据集上的一系列实验表明,PCED算法进一步提高了上位性检测效率和样本有效性。
其他文献
<正>现代文明之下的人类,无时无刻不是互联网和能源的使用者。正是互联网和新能源这两个行业吸引了国际资本最多的目光。中国经济吸引国际资本伴随着中国经济的不断开放,越来
气候资源与人们的生产生活联系极为紧密,人们因开发利用和保护气候资源而产生各种法律关系,其重要性不言而喻。然而我国气候资源保护立法相当薄弱,未成体系,不足以担当保护气
[目的]为了使心肺复苏时团队抢救有序,缩短急救措施落实到位时间。[方法]把急诊科60名护理人员每3人一组组合成20个观察组,先采用传统组织抢救模式,再采用定位协作抢救模式,
高炉炼铁是一个物理化学反应复杂、多相多场耦合的大滞后、非线性动态密闭系统,其关键质量指标―铁水温度、Si含量、P含量、S含量难以直接在线检测,且离线化验过程滞后严重.
小眼畸形相关转录因子(Mitf)是由Mitf基因编码的一个拥有碱性螺旋-环-螺旋拉链(basic helix-loop-helix zipper,bHLH-Zip)结构的转录因子[1]。Mitf调控着许多细胞的分化,如黑色素
经5种蛋白酶比较试验的筛选,采用碱性蛋白酶进行水解蚕蛹蛋白的研究。在单因素试验的基础上,以水解度为考察指标,通过正交试验优化水解工艺条件,研究温度、底物浓度、时间、
从中华书局近日出版的《大道之行》一书中,我们可以感受到一代哲人周善甫先生晚年倍加关注的中国特色社会主义伟大事业,体现了全国各族人民的根本利益,是实现中华民族伟大复
几种抗氧化剂的浓度与其清除 1,1 二苯基苦基苯肼 (DPPH)能力呈显著的线性相关 .不同抗氧化剂清除DPPH能力差异明显 .抗坏血酸与DPPH反应的灵敏性高于其抑制肾上腺素氧化的能
2010年,《中国社会科学》(1980年1月创刊)迎来创刊30周年华诞。30年来,《中国社会科学》坚持以马克思主义为指导,努力成为深刻反映学术前沿、时代精神和中国经验的权威阵地,
造成中国国内市场分割的主要原因有两个:一是消费者的本地偏好,二是地方政府的保护主义。这两种因素通常难以区分。我们认为可以利用网络贸易的数据区分这两种因素:在网络贸