【摘 要】
:
人类基因组计划实施,生物技术快速发展,生物信息学诞生并日新月异。GWAS(Genome-Wide Association Studies)是生物信息学中的重要研究问题之一,GWAS研究提供了通往对多基因疾病进行研究的道路,可以发现大量从来没有被人类知晓的SNPs遗传标记,给生物科学家提供了更多发现多基因疾病相关的研究线索。其中在全基因组层面上进行上位性检测对帮助研究复杂疾病的成因意义重大。近年来,
论文部分内容阅读
人类基因组计划实施,生物技术快速发展,生物信息学诞生并日新月异。GWAS(Genome-Wide Association Studies)是生物信息学中的重要研究问题之一,GWAS研究提供了通往对多基因疾病进行研究的道路,可以发现大量从来没有被人类知晓的SNPs遗传标记,给生物科学家提供了更多发现多基因疾病相关的研究线索。其中在全基因组层面上进行上位性检测对帮助研究复杂疾病的成因意义重大。近年来,科研人员研发出了很多可以用于进行上位性检测的方法,但很多方法都是采用穷举搜索策略,无法应用于数据量庞大的全基因组层面上的数据集;一些算法虽然可以应用在大规模的数据集上,却因为SNPs相互作用后计算量庞大以及多重检验等造成计算量巨大、复杂度很高以及假阳性结果多等一系列问题。因此,在我们的研究中,创新出一种可以应用在全基因组层面上的、精度更高并且假阳性率低的上位性检测算法至关重要。针对上述问题,本文进行了面向全基因组关联研究上位性检测的群智能优化算法研究。在设计群智能优化算法时,对于计算度量SNPs之间联系的评价函数的选取是一个难点,容易出现衡量SNPs相互作用与疾病关联程度不高等问题。对于群智能优化中的蚁群算法,启发式信息的设计也是个难点,容易出现不够充分等问题,如何巧妙结合现有基础设计出适用于上位性检测的启发式信息也是一个挑战。解决上述问题后设计出的算法筛选出少量的SNPs组合后还存在着噪声数据多、假阳性结果多的问题,也需要再进一步进行检测筛选。我们针对上述问题进行改进,设计了基于群智能优化的ACO-GAB算法和基于群智能优化的两阶段算法ACO-FHG。ACO-GAB主要有以下创新点:在设计适应度函数时,ACO-GAB将gini不纯度、逻辑斯蒂回归中的AIC分数、贝叶斯评价准则中的K2score相结合,这几个评价函数都曾经被应用于此类研究,具有各自的优势以及不足之处。利用这几个评价函数的优势来对彼此进行互补,避免相互之间的不足可以有效衡量SNPs组合与疾病之间的关联程度。通过实验结果的对比,验证了ACO-GAB中适应度函数的合理性,但ACO-GAB还存在着一定的问题,所以我们设计了ACO-FHG算法对其作出进一步改进。ACO-FHG主要有以下创新点:1)对于蚁群算法来说,经常因为没有先验知识难以获取启发式信息,ACO-FHG将SMUC和multi-SURF*结合作为启发式信息引入蚁群算法的决策规则中,有效指导蚂蚁对上位性进行搜索。2)为了避免噪声数据多、假阳性结果高的问题,ACO-FHG采取两阶段方法。经过蚁群算法筛选出小部分SNPs作为候选解后,利用G-test再对其进行第二次筛选,可以有效降低结果的假阳性。通过在多个模拟数据集上将ACO-FHG和其他算法的结果进行对比,验证了ACO-FHG在检测上位交互作用中的优势及可用性;通过在真实数据集上进行计算,发现了复杂疾病的致病基因,ACO-FHG算法可以帮助面向全基因组层面的上位性检测。后续的研究中将针对随着SNP个数增加时间复杂度增大这一问题,探索更高效的方法或部署到大数据平台上,解决计算时间长、效率低的问题。
其他文献
长链非编码RNA(long non-coding RNA,lnc RNAs)是一种重要的非编码RNA,在人类基因转录调控、细胞生长、分化、繁殖等生命活动中起着重要的作用。同时,lnc RNA的保守性相对较低,使得其功能研究变得更加困难。现阶段,lnc RNA的表达性差异分析和lnc RNA与蛋白质的共表达分析可以用来预测lnc RNA的功能,但传统的生物实验方法过于昂贵和耗时,且往往需要更为严格的
蛋白质与RNA之间的相互作用是许多细胞调节和基因表达过程的基础,同时,许多研究也已证明几乎所有的蛋白质都需要和RNA产生相互作用才能充分发挥其功能。通过分析蛋白质与RNA的相互作用方式,我们不仅能够加深对蛋白质的理解,同时还能将有效的方法加以推广,去研究更多的生物过程。目前,生物学实验和基于生物信息学的计算方法是用来预测相互作用的主要手段。生物学实验主要通过核磁共振、X射线衍射等方法来识别相互作用
随着5G的到来与普及,现实生活场景中万物互联,科技的迅速发展带来了许多高质量的服务与应用,如自动驾驶、智能家居等。这些新时代5G力量既为用户提供了舒适的生活方式,又满足了用户高质量体验的愿望。但提供高质量服务的同时产生了呈指数级增长的数据量,导致网络传输延迟等故障出现,随之而来的是一些急需缓解的问题。近年来,根据数据分析显示,由于网络延迟等故障的出现,数据传输不及时或不完整导致的交通安全问题普遍存
学校教务系统给广大师生提供了方便快捷的在线操作,能够减少师生日常教务活动所耗精力。但是在目前吉林大学的教务工作被分散多个服务之上,不同服务之间的信息难以共享、技术架构各有不同,对学校的服务治理提出较高挑战。如何将众多服务进行整合,对各个服务进行统一管理,对校内业务进行领域划分,使得各个服务的代码能够为其他服务所用,既能减少开发成本、加快业务迭代过程又能减少服务运维难度成为治理当前教务系统的新挑战。
随着生活水平的提高,轨道交通成为满足人们不断增长的便捷出行需求的重要交通工具。在轨道交通发展中,不锈钢轨道客车以其轻量化、维护周期长等优点成为发展最快的轨道交通载具之一。为实现不锈钢轨道客车车体的轻量化,主要采用薄板拼装焊接结构。电阻点焊是不锈钢车体制造的主要焊接工艺,每辆车体有高达4~5万个点焊焊点,是不锈钢车体焊接制造的关键工艺,其焊接质量亦关系车体的制造质量。因而对点焊质量高效检测与评估,对
作为一种新型的绿色环保材料,镁合金具有较好的工程应用前景,但因其较差的耐蚀性受到限制。尤其是在服役环境和外加载荷的共同作用下,镁合金极易发生应力腐蚀和氢脆,造成结构件突发性断裂。这不仅限制了镁合金的应用,造成经济损失,而且存在极大的安全隐患。因此,改善镁合金的抗应力腐蚀和氢脆问题变得极为重要,相关研究也倍受关注。本文经过设计并制备出AZ91和AZ91-xGd(x=0.5、1.0和1.5 wt.%)
近年来传染性极强的新型冠状病毒在全球肆虐,由于其呼吸道飞沫传播和接触传播特点,对生物信息识别技术的应用提出了新的要求和挑战。虹膜识别技术因其非接触性、稳定性、唯一性等特点,符合实际应用需求现已经逐渐成为生物信息识别技术中热度最高的身份识别认证技术。本文以虹膜库中通过质量评价的虹膜图像为研究对象,针对传统虹膜特征提取与虹膜识别算法出现的问题做出了改进,提高了识别准确率及算法的性能。传统单一特征提取算
随着经济发展,商用车是全国货品转运的枢纽,是物流产业的重要一环,它的作用无比关键。但商用车质量高,污染物排放量更多,行驶时惯性大,发生事故可能造成的伤害更严重。对于商用车既要进行合理的轻量化设计又要提高碰撞安全性能的研究显得尤为重要,所以基于此背景,研发出了同时符合以上要求的以高强钢为材料的“日”字形截面商用车防护梁制件。“日”字形截面高强钢型材可将高强钢的防撞性能和吸能特性发挥最大,而利用绕弯成
近些年以来,在人工智能科技浪潮的引领下,有关于计算机视觉在医疗诊断方面的研究呈现飞速并全面发展的态势,医学影像有关的临床应用具有了更加深远和广泛的意义。与此同时,随着医学技术的日异变革与发展,创伤面积小、病痛程度轻、恢复速度较快的微小创口手术受到了越来越多手术患者们的青睐,以腹腔镜手术为代表的微创手术逐渐成为了临床实践中的一个热门研究领域。不同于传统大切口开刀手术,现代的腹腔镜手术通过腹部小切口放
铝合金因其生产成本低、比强度高,兼备良好的成形性、抗腐蚀性、焊接性和导电性,在家用电器、汽车制造、机械设备和建筑耗材等领域中发挥着重要作用,成为现代化工业生产中广泛使用的轻量化有色金属材料之一。但是,随着现代工业的迅猛发展,现有的Al-Mg系合金无法满足制造业的更高要求,人们希望Al-Mg合金同时兼备高强度和高塑性的想法仍然难以实现。针对Al-Mg合金,常见的大塑性变形(SPD)方法难以大量应用到