全基因组关联分析中上位性检测算法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lili1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和大数据时代的来临,各个研究领域都涌现出了大量的数据,这为计算机科学与技术领域的学者带来了前所未有的机遇和挑战,如何从庞大的数据中挖掘出我们需要的信息是目前信息科学领域的热点之一。全基因组关联分析的数据是一种高维的生物数据,往往包含数十万个SNP,以及数千个正常样本和患病样本,研究者们期望通过分析这种数据来揭示SNP与疾病之间的关系,从而推动对疾病的研究。复杂疾病是由多基因、多因素共同引起的常见疾病,近年来,全基因组关联分析已经成为研究复杂疾病的主要手段之一,在全基因组关联分析中检测上位性SNP组合对探索复杂疾病的解释、预防、治疗有着重要的意义。在全基因组关联分析中检测上位性是一种非常复杂的高维组合优化问题,近年来,研究者们提出了很多在全基因组关联分析中检测上位性的方法,本文将这些方法归纳为五类:穷举法、随机法、过滤法、模型法和进化法。这些上位性检测算法主要有以下四点问题,这些问题影响着上位性检测算法的精度与效率:其一,很多算法往往是基于单独的衡量SNP组合与疾病关系的函数设计的,当潜在致病模型不符合某些预设的假设时,用于衡量的函数会失效,从而限制了算法的精度和检测能力;其二,很多检测算法是基于一些经典的群智能优化算法的,这类算法往往缺少对上位性检测问题的针对性,没有充分利用全基因组关联分析数据的特性;其三,基于群智能优化算法的检测算法对有强边际效应的SNP具有非常强的偏性,这种偏性不利于算法对无边际效应的上位性的检测;其四,随着生物信息学的发展,大量的生物数据库涌现、完善,这些生物数据库已经成为了当前生物信息学研究中不可缺少的工具,然而,目前绝大多数上位性检测算法都没有尝试利用这些生物数据库来提升算法检测上位性的能力。针对以上问题,本文系统深入地进行了对全基因组关联分析中上位性检测算法的研究,提出了四个上位性检测算法:1.HS-MMGKG算法是本文提出的一种进化法,它是基于和声算法来设计的,为了弥补单一衡量SNP组合与疾病关系的函数带来的问题,HS-MMGKG算法在运行的过程中同时维护了五个和声库,每个和声库对应一个衡量SNP组合与疾病关系的函数,这五个函数是MDR、mi、gini、k2、g,这些函数来自于不同的领域,从不同的角度衡量SNP组合与疾病的关系,互相弥补。实验表明HS-MMGKG算法检测上位性的能力相较于经典的其他同类算法有所提高;2.SEE算法是HS-MMGKG算法的进一步完善与提高,随着我们对上位性检测与全基因组关联分析数据的学习,认识到很多经典的群智能优化算法的框架在应用于检测上位性时仍然有很多的不足,因此,我们对传统的群智能优化算法进行凝练、调整,针对上位性检测设计了全新的群智能优化算法,提出将SNP组合与疾病的关系分为关联和关联来源两种,区分衡量,SEE算法使用四个函数用于衡量关联,同时设计了四个函数用于衡量关联来源,并使用排序策略融合了八个衡量SNP组合与疾病关系的函数。实验表明,SEE算法在精度和时间上相对于其他算法有较大的提高;3.SHEIB算法是一种随机法,相对于基于群智能优化算法的检测算法,SHEIB算法更专注于检测无边际效应的上位性,在SHEIB算法中,提出了一种基于k2函数设计的在一个包含mo个SNP的组合中检测[2,mo]阶上位性的策略,基于该策略,SHEIB算法可以检测到任意阶的上位性,提出了两个关于上位性的假设,基于这两个假设,SHEIB算法可以使用“基因映射数据”和“基因关联数据”进一步提升其检测上位性的能力。实验结果表明,SHEIB算法的检测能力相对于其他算法有非常大的提升,而且可以通过使用“基因映射数据”和“基因关联数据”使其检测上位性的能力进一步得到提升;4.SHEIB-AGM算法是针对SHEIB算法使用“基因关联数据”的结果不太理想而提出的,它引入“自动基因矩阵”替代了SHEIB算法中的“基因关联数据”。实验结果表明,在提供必要的生物数据的前提下,SHEIB-AGM算法检测上位性的能力要优于SHEIB算法;本文提出的四个算法在模拟数据集和真实数据集上都进行了大量的实验,实验结果表明,本文研究设计的算法都获得了优良的结果。这些算法的结果会有助于推动全基因组关联分析和复杂疾病的研究,同时,这些算法的思想也将有利于计算机科学其他领域算法的开发。计算机算法理论的研究是生物信息学中上位性检测问题研究的强大支撑,同时,生物信息学问题研究成果也必将对计算机学科的发展起到重大的促进作用。
其他文献
氧化亚氮(俗称"笑气")是用于麻醉的无机气体,起效快,吸入人体后大脑皮质神经细胞迅速抑制,起到镇静、镇痛作用,恢复迅速,适用于口腔科门诊各项治疗[1].本院口腔科采用氧化亚
【正】 随着神经显微外科的发展,周围神经卡压症的治疗逐渐推广。本院自1996年1月~2000年4月共收治臂丛神经卡压症病人48例,病人均有不同程度的颈肩痛伴同侧上肢疼痛、麻木、
使用多媒体教室上课,少不了多媒体课件的支持。若要制作出高质量的多媒体课件,选题十分重要,创意设计也要下一番功夫,新颖的封面设计更必不可少。
PBL教学模式以其独特的优势被国内多所医学院校所采用,但其在本科教学中推广较难又限制了其广泛应用,与案例分析相结合,以典型病例为线索,学生独立思考解决问题为主、教师引导为
人参和西洋参蛋白电泳的鉴别研究许欣荣赵华英霍德兰陈永林路晓钦(山东医科大学中草药学教研室)人参和西洋参相似,因国产西洋参生长年限短,根细、横纹少,又有全须西洋参的加工品种
3D GISs were developed simultaneously in the late 1980s in a number of different disciplines.The development of these 3D GISs can not yet meet all needs for new
目的:1.B细胞在自身免疫性疾病中发挥着重要作用,通过检测两类常见的自身免疫性疾病:系统性红斑狼疮(Systemic Lupus Erythematosus,SLE)和类风湿关节炎(rheumatoid arthriti
近年来,随着我国经济的发展和社会的进步,传统的事业单位体制为适应时代的发展必然要在多种层面进行深度改革,人力资源管理就是其中重要的一项内容。在现代人力资源管理理念
This paper introduces the principle of genetic algorithm and the basic method of solving Markov random field parameters.Focusing on the shortcomings in present
本文对《中文核心期刊要目总览》评选研制工作提出建议:一是“被索量”的统计方法要调整,其权重宜降低;二是采取有效措施,遏制期刊间不正当的互相引征;三是改进参评专家的选聘方式