群智能优化算法及在复杂疾病关联分析中的应用研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:coralcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,群智能优化算法得到长足的进步和发展,并已成功应用于科学计算和工程领域。然而,随着科技进步和大数据时代的兴起,大量复杂的高维优化问题不断涌现,使得很多现有优化方法不再适用于新问题的求解。近年来,和声搜索(Harmony Search,HS)和差分进化(Differential Evolution,DE)算法在求解复杂优化问题方面引起研究者广泛关注。和声搜索算法具有很强的全局探索能力,不容易陷入局部搜索,适用于复杂的实数和离散优化问题求解。差分进化算法在实数优化方面具有丰富和成熟的研究基础,在复杂问题求解方面也已展现出了优异性能。然而,对于大规模高维(大于500维)复杂优化问题,许多优秀群智能优化算法的全局求解性能会大幅下降。因此,高维复杂优化问题求解成为信息科学领域研究的热点之一。在生命科学领域,高通量测序技术产生了大量组学数据(基因组、代谢组、蛋白质组和糖组学等),为研究人类复杂疾病的致病原因提供了良好的研究基础,但同时也对科学计算技术提出了巨大挑战。特别是在全基因组关联研究(Genome-wide Association Study,GWAS)中,人们试图从全基因组序列中发现多个联合作用于复杂疾病的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点,但由于组合爆炸问题,传统的穷举法难以适用于鉴定所有SNP组合位点与复杂疾病的关联性,使得目前成功的GWAS应用还主要是单个SNP致病位点的发现,而对于多SNP联合致病组合位点探测,是非常复杂的高维组合优化问题,依然没有非常好的精确计算方法,成为目前生物信息学与生命科学研究的重点之一。针对上述两个问题,本课题主要从高维复杂优化问题的群智能求解算法及其在人类复杂疾病关联分析中的应用展开研究。为了能够提升高维复杂优化问题的求解性能,重点研究了和声搜索和差分进化算法在搜索过程中全局探索能力(Exploration power)和局部开发能力(Exploitation power)的变化,以及造成算法性能下降的主要因素。发现和声搜索与差分进化算法有一个共同问题,在进行高维复杂问题优化的后期,它们的更新操作成功率会非常低。另外,差分进化算法中的变异算子在求解高维优化问题时,存在大量冗余计算,也是影响算法搜索速度的关键因素,为此,提出了两个求解高维复杂问题的群智能优化算法(面向高维复杂优化问题的和声搜索算法,改进的差分进化算法)。为了能够从高维的SNP数据中快速搜索出多SNP联合致病组合位点,重点研究了使用和声搜索算法探测多SNP联合致病组合位点的可能性,主要从算法的搜索速度和致病组合位点的识别能力方面进行研究,提出了两种基于和声搜索的SNP联合致病位点探测算法。本博士论文主要在以下几个方面进行了较为深入的研究和探索:(1)针对高维多峰值复杂优化问题求解,提出了基于变量动态降维选择调整策略的和声搜索算法(DIHS)。通过比较传统和声搜索算法用于产生新和声的Take-all策略和一个简单的Take-One策略,发现在优化进程的后期,Take-all策略产生优胜新解的成功率随着优化问题维度的增高下降很快,是影响传统HS算法求解速度和精度的关键因素。为此,提出采用变量动态降维选择调整策略和动态步长扰动机制,用以提高和声搜索算法产生优胜新解的成功率,从而提升算法全局求解能力。通过对12个多峰和4个单峰的典型优化问题进行测试,结果表明,对于高维多峰值优化问题,DIHS在搜索过程中能够始终保持较高的更新操作成功率,并能够以较小的运行代价获得高精度全局最优解。与标准HS相比,在求解1000维的这16个测试问题时,求解精度平均提升了 90.33%,且运行时间平均减少23.8%。(2)针对差分进化(Differential Evolution,DE)算法在进行高维复杂问题求解时存在大量冗余计算、易陷入局部搜索等问题,提出改进的差分进化算法,将变异算子和交叉算子相融合,引入局部变量动态调整策略,以增强DE的全局搜索能力。采用动态的交叉概率参数(Crossover rate,CR)同时管理变异算子和局部变量调整策略,用于降低计算冗余。通过实验测试表明,提出的DE算法的求解质量在所有测试问题上都优于标准DE算法,并且在求解1000维的16个复杂测试问题时,计算速度平均提升13.79%,全局最优解的求解精度平均提升81.96%。另外通过与三个经典的复杂问题求解算法(SaDE,CoDE,CMAES)和7个高维问题求解算法相比较,证明了改进DE算法求解高维复杂优化问题的可行性。(3)在全基因组关联性研究中,两个SNP组合位点是非常常见和重要的致病组合。然而,由于SNP位点的组合数量巨大和致病模型丰富多样,使得现有很多算法在进行致病位点探测时,存在运算代价大和致病模型识别准确率低的缺点。为此,提出了一种快速的两位点探测算法(FHSA-SED),采用两个互补的轻量级评分标准(基于贝叶斯网络的K2-Score和Gini-Score)评价SNP组合位点与疾病状态的关联性;利用和声搜索算法进行全局搜素,将评分较高的SNP组合位点存放在候选集中,最后利用改进的G-test方法对候选SNP组合位点进行检验和确认。12个有边际效应(Disease with Marginal Effect,DME)与 70 个无边际效应(Disease with No Marginal Effect,DNME)的仿真数据实验和1个真实的老年性黄斑变性(age-related macular degeneration:AMD)数据实验表明,FHSA-SED算法在进行两个SNP致病位点探测时,具有搜索速度快,识别能力强和准确率高等特点。(4)为了能够快速准确地进行多SNP联合致病组合位点探测,提出了一种基于小生境策略的和声搜索算法(NHSA-DHSC)。通过提出小生境识别技术辅助HS算法,探测不同类型的SNP致病组合模型并防止HS算法陷入局部搜索;通过运用SNP组合位点的联合熵作为和声搜索的启发式因子,快速识别边际效应低的致病SNP组合位点;K2-Score和Gini-Score用于识别多样的致病组合模型;改进的G-test方法用于检验最终结果的真伪性。实验采用12个有边际效应的DME仿真数据集,8个高阶无边际效应的DNME仿真数据集和1个真实的AMD数据测试NHSA-DHSC算法的致病位点探测性能,结果表明,该算法能够快速准确的识别DME致病位点,可以快速识别一些无边际效应的多SNP联合致病组合位点,并且能够从AMD数据中快速发现已知的致病SNP位点。
其他文献
社会生活的信息化和经济活动的全球化,使英语日益成为我国对外开放和与各国交往的重要工具。近几年,英语教学在我国学校得到高度重视:英语课程的设置符合国家标准;英语师资的配备比较完善;小学从三年级开始开设英语课程。在当前初中英语教学中,学生英语成绩两极分化现象非常严重,产生了大量的“英语学困生”。分析形成原因,探索帮助策略,使他们树立自信,学好英语,是提高素质教育水平的需要,也是广大英语教师在新课程背景
贯穿决策的全过程、有质量的保证以及实行专业化管理是构建有效行政决策信息公开机制的必然要求和客观标准。然而,目前我国地方政府重大行政决策信息公开建设仍存在着诸多问
<正> 伞形科当归属植物法落海(Angelicaapaensis Shan et Yuan Sp.nov.,阿坝当归)分布于云南东北部高寒山区,如东川等地,系多年生草本植物,药用其干燥根,以根条粗肥,气香浓而
水稻田土壤存在湿干交替过程,土壤含氧量、含水率及氧化还原电位会随之变化,从而影响水稻土中SOB和SRB的种群分布,这些变化引起的硫形态转化将会显著影响水稻土中重金属的形
天然有机物(Nature Organic Matter)是消毒副产物(DBPs)和水中致突变物质的主要前驱,天然饮用水源中腐植酸的存在给人类及动植物带来了一系列的影响。在污水处理和回用中,天
本文就国内外温盐时空变化研究历史及现状,特别是长江口及邻近海域的温盐研究进行回顾。在前人工作的基础上就长江口及邻近海域温盐的时空分布特征进行数值分析:将EFDC水动力
目的探讨住院患者对护士站静脉输液监测系统认知与使用体验。方法 2016年5-6月,采用目的抽样法选取上海交通大学医学院附属新华医院使用输液监测系统的普外科病区10名患者为
社会主义国家的行政人员仅做到依法行政是远远不够的,应该同时做到依德行政.本文对依德行政作了探讨.认为社会主义国家的行政,其宗旨是&#39;全心全意为人民服务&#39;,一切行
当今世界正面临全球生态危机的威胁,面对生态环境的严峻考验,人类重新思考人与自然的关系,提出了生态文明的理念。生态文明不仅包括良好的生态环境、可持续的经济发展模式和
主要研究国内馆配电子书平台PDA方案在图书馆界实施的可行性。在初步了解目前市场上较成熟的五家馆配电子书平台研发上线的时代背景、共同特征及业界反响的基础上,进一步阐述