【摘 要】
:
全基因组关联研究(Genome-wide association study,GWAS)是研究人类复杂疾病致病原因最重要的方向之一。目前,通过GWAS对单个单核苷酸多态性(Single nucleotide polymorphism,SNP)位点与疾病的关联性分析目前已取得了显著的成果。由于复杂疾病的致病因子复杂多样,单个SNP位点的关联性分析对复杂疾病致病机制的解释效果十分有限,而多个SNP之间
论文部分内容阅读
全基因组关联研究(Genome-wide association study,GWAS)是研究人类复杂疾病致病原因最重要的方向之一。目前,通过GWAS对单个单核苷酸多态性(Single nucleotide polymorphism,SNP)位点与疾病的关联性分析目前已取得了显著的成果。由于复杂疾病的致病因子复杂多样,单个SNP位点的关联性分析对复杂疾病致病机制的解释效果十分有限,而多个SNP之间的非线性交互作用被认为是形成人类复杂疾病最重要的致病因子之一。然而,基因组学数据具有高维小样本的特点,使得从全基因组范围内挖掘高阶SNP交互作用十分具有挑战性。一方面,随着参与交互的SNP数量的增加,需要评价的组合数呈指数级增长。现有方法的单次运行只能探测到k-order SNP交互作用,若要探测多种不同维度的SNP交互作用则要执行多次对应阶数的SNP组合探测算法。另一方面,未知的复杂疾病遗传结构使得准确评价多个SNP位点与疾病的关联性十分困难,单个关联性评价标准难以识别丰富多样的SNP致病模型。针对上述问题,本文从以下三个方面展开研究:(1)为了提升对多样的SNP致病位点的识别和探测能力,提出了一种基于多标准的蚁群优化(Multi-criteria ant colony optimization,MCACO)算法。MCACO算法分为三个阶段执行,第一阶段,两个蚁群分别采用基于贝叶斯网络的K2-score和JensenShannon散度作为评价标准并行搜索,旨在探测潜在与疾病状关联的SNP组合;第二阶段,通过基于随机森林的特征重要性排序方法,剔除掉SNP组合中冗余的SNP位点;第三阶段,利用G-test统计方法验证探测结果的统计显著性。最后,在20个仿真数据模型的实验表明,MCACO在12个有边际效应模型上探测能力几乎能达到100%,尤其在样本数量更少的数据集上能识别更多的致病位点。(2)为了对多种不同阶的SNP致病组合进行快速搜索,提出了一种多任务蚁群优化算法(Multi-tasking ant colony optimization for detecting multi-order SNP interactions,MTACO-DMSI),MTACO-DMSI能同时进行2-order,3-order,…,k-order SNP交互作用关系的探测,该算法分为搜索阶段和验证阶段。在搜索阶段,多个高阶SNP交互作用探测任务并行执行,每个任务设置两个种群,分别采用K2-score和Jensen-Shannon散度作为评价标准,用于提高算法的全局搜索能力和对多样的疾病模型的判别能力。在验证阶段,采用G-test统计检验验证候选解的真实性。与传统的单任务算法实验结果相比,MTACO-DMSI在20个交互效应模型上探测能力更强,完成k-order探测任务所耗费的计算资源更少,并且在三个真实数据集中探测到了在相关文献中被报道的致病位点和分类精度超过95%的高阶SNP组合。(3)为了进一步提高MTACO-DMSI算法知识迁移操作的效率,并提升算法对无边际效应疾病模型的鉴别能力,提出一种基于统一编码的多任务蚁群优化算法(Multi-tasking ant colony optimization based on unified coding for detecting multi-order SNP interactions,MTACO-UC-DMSI)。MTACO-UC-DMSI为所有任务设置了统一的编码,并通过顺序交叉操作完成任务之间的知识迁移。其次,针对MTACO-DMSI无法识别部分无边际效应模型的问题,引入了探测无边际效应致病组合线索的评价标准ND_JE-score。通过与MTACO-DMSI对比,改进后的MTACO-UC-DMSI算法保持了在12个有边际效应模型上的探测能力,并且在6个无边际效应模型上的探测能力都在80%以上。本研究分析了多任务蚁群优化算法在大规模组合优化问题上的应用,通过大量的仿真数据实验和真实数据实验,验证了本文提出的三种算法在复杂疾病数据集中挖掘高阶SNP交互作用的能力,并且探测方法的实验结果可应用于指导复杂疾病的研究,推动与复杂疾病相关联的解释性结果的发现。
其他文献
图像分割是图像识别、分析与理解的重要预处理步骤。由于各种主客观因素的影响,数字图像通常具有一定的模糊性。在众多结合不确定性理论的图像分割算法中,基于证据理论的证据C-均值(Evidential C-Means,ECM)聚类算法,通过基本信任分配函数来刻画像素对各类别的信任度。在信任划分中,像素不仅可以属于单一类或噪声类,还可以属于由单一类组成的复合类,这种额外附加的灵活性有利于更合理地表达与处理图
深度神经网络作为当前人工智能兴起的核心技术,解决了使用传统机器学习技术多次尝试却难以解决的复杂学习问题,并在图像分类任务上拥有了超越人类的表现。然而深度神经网络的结构具有非线性,会诱导基于深度神经网络模型的系统对某些样本出现误判,这种样本称为对抗样本,通常在正常样本上添加人类肉眼难以分辨的对抗性扰动构成,其存在能够严重地破坏深度学习智能系统的鲁棒性。因此,如何有效防御对抗样本的攻击是当前深度学习广
无线传感器网络(Wireless Sensor Network,WSN)作为远程环境监测系统应用的关键技术,能够在有限的能源供应下提供高效的传感和通信服务。覆盖控制是保证高效通信和可靠数据传输的重要手段。鉴于复杂的物理环境限制了节点部署方式并阻碍了能量补充和恢复,我们的研究动机是在传感器节点重部署过程中修复覆盖孔,降低能耗,以实现对WSN覆盖范围的优化和增强。近年来,群智能算法的发展和成熟推动了其
认知反向散射是一种高频谱利用率、低功耗的通信技术。在认知反向散射网络中,反向散射设备(Backscatter Device,BD)利用主用户的射频信号实现能量供应与被动信息传输,为频谱与能量双重受限的物联网提供了一种高效的传输方案。本文研究认知反向散射网络公平性保障的资源优化方案,在不同场景下通过设计公平有效的资源分配方案保障BD信息传输的公平性,主要工作如下:1)考虑实际的非线性能量收集模型与动
在各种信息迅速传播的今天,图像作为一种常见的信息载体,凸显出了越来越重要的地位。图像质量的好坏直接决定了获取有用信息的多少,但是由于图像获取的环境和成像设备的限制,造成了图像的各种模糊和畸变问题。由于图像获取的环境是不可控因素,想要改变拍摄时图像的环境困难较大,较好的成像设备费用也比较高昂,而使用软件处理的超分辨率技术成本低廉,得到的效果较好,因此图像超分辨率重建技术得到了广泛的应用。决定超分辨率
随着现代工业向智能化方向的不断发展,工业设备对计算资源的需求变得更加紧迫。传统云计算因其架构原因无法满足工业场景对实时计算资源和数据安全保护的需求。作为继云计算之后的新型计算范式,边缘计算将服务器放置在靠近终端设备的网络边缘侧,能够通过计算任务卸载为工业设备提供低延迟和安全性强的计算服务。计算任务卸载策略会对工业计算任务的执行效果产生巨大影响,不合理的任务卸载无法提升工业互联网边缘计算的性能。与此
智能反射表面(Intelligent Reflective Surface,IRS)是未来第六代无线通信技术的新兴范式,其可改变无线通信传输环境的特性近两年得到广泛关注。IRS可有效提升空间调制系统的数据传输速率,而在数据交互量轰炸式增长的信息时代,人们也越来越关注通信安全,IRS使能物理层安全在节省能源消耗的同时能够辅助提高传输安全。本文研究IRS在单输入单输出(Single-Input Sin
近年来,随着监控视频技术的普及和发展,运动目标检测技术被广泛应用于工业生产、安防监控和交通管理等领域。然而,实际监控场景的多变性和复杂性给运动目标检测算法带来了诸多困难和挑战,如动态背景、相机抖动和阴影等因素会影响算法的准确性和鲁棒性。因此,研究如何设计实时性好、鲁棒性强的运动目标检测算法成为当前技术研究的重点。基于深度学习的实例分割方法展现出强大的鲁棒性,能够精确地对每个目标的轮廓进行分割,因此
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,Pol SAR)是一种强大的微波成像技术,可以提供全天候的地球表面的目标信息。与其他遥感影像相比,极化SAR图像能够以四种极化组合(HH、HV、VH和VV)发射和接收电磁波,从而提供更丰富的信息。由于这些特点,极化SAR技术在图像解译方面具有很高的实际应用价值,如图像分类、目标识别和检测任务,其中,极化S
基于深度神经网络(Deep Neural Network,DNN)实现的自动驾驶系统图像识别模型中,主要通过部署摄像头和激光雷达等设备收集驾驶场景信息。但现实驾驶场景广泛且复杂,手动收集训练样本时很可能会忽略大部分极端情况下的图像样本,这会导致模型无法学习到极端驾驶环境下的决策信息,从而导致严重的交通事故。除此之外,已有研究表明DNN很容易受到对抗样本的攻击,恶意攻击者通过对输入样本添加人眼无法识