引力场算法及其在生物信息学中的应用

来源 :吉林大学 | 被引量 : 1次 | 上传用户:hopkings
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
优化算法是当今的重要研究课题,能够从海量数据中获得所需最优解,也是极具挑战的工作。优化算法可定义如下:给定某一待解问题,求该问题的最优解,此问题一般以N元变量方程形式给出。若N远大于1,则该方程在N维空间中解的个数并不唯一,甚至是无穷个解。为获得所需方程评价标准最大值或最小值所使用的计算机方法即为优化算法,评价标准是所求问题解的集合。现实生活、生产和研究中优化算法应用相当广泛,可解决各个领域面临的诸多寻优问题,比如全球物流路径选择合理化、日程安排最优化和生产成本最小化等等。前人对优化算法的研究已久,虽然算法目标是求得最优解,但对大规模数据却无法全局收敛,只可逼近最优解。最优算法种类繁多,有解析法、直接法、数值计算法和各种启发式搜索算法等等。其中大规模数据优化问题启发式搜索算法效果最佳,所以该方向也是研究热点与难点。启发式搜索算法目前主要包括模拟退火算法、遗传算法和粒子群算法等等。但这些算法无法解决所有问题,尤其是多峰值问题处理不佳,运算速度慢等,需要一种新算法来弥补这些缺陷。本文根据天文学的星云盘模型提出一种新型启发式搜索算法:引力场算法,并应用该模型到生物信息学的诸多领域,具体内容如下:⑴星云盘模型描述行星形成过程:宇宙中暗星云通过各种形式组合在一起成为恒星,而宇宙灰尘则被恒星排出,在引力作用下不断凝聚并最终形成行星。将此模型通过数学建模并创新提出了引力场算法。引力场算法主要包含四个步骤,分别为灰尘初始化、灰尘分组、移动算子和吸收算子。在灰尘初始化阶段,首先要考虑解空间的维度和形式,比如求两点间距离,则两点编号所组成向量作为引力场算法灰尘,再比如求某一矩阵行列式的值,则该矩阵作为引力场算法的灰尘。然后,在灰尘的每一个维度都随机赋予一个值,但要使该分量符合解空间范围。灰尘分组算子是引力场算法的核心问题之一,分组策略较多。解空间维度是1时,可采用平均法和随机法。平均法是每一组的取值范围都相同但组内数据皆连续,随机法是指每一组取值范围不等但组内数据皆连续。当解空间维度为2时,可以采用最大公约数法和随机法。最大公约数法是将二维空间面积分解为该面积值的两个最大公约数的乘积,每一个子块成为一组。随机法只考虑其中一维数据作为分组标准,方法与一维随机法相同,另一维不作为分组标准。当解空间维度大于2时,可采用随机法和扩展随机法。随机法与二维随机法相同,只考虑其中一维数据作为分组标准,其他维不作为分组标准。扩展随机法将每一个灰尘随机赋给任意一组,每组内灰尘数据可不连续,每组灰尘数量也各不相等。扩展随机法也可用于一维和二维数据灰尘分组。移动算子是引力场算法另一个重要内容。分组结束后,计算每组内所有灰尘质量函数值并比较所有值大小,从而确定中心灰尘。每组内周围灰尘向中心灰尘方向移动,移动步伐采用两灰尘间距离乘以黄金分割数的1/10。在移动过程中,每一个周围灰尘都要受到自转系数的影响。自转是一种从中心灰尘向周围灰尘的排斥力,自转系数是发生自转的概率,自转系数随两灰尘间距离减小而增大。吸收算子指中心灰尘和周围灰尘间距离足够小时,将周围灰尘删除。若算法满足结束条件,则直接得出中心灰尘及其相应质量函数值,否则所有中心灰尘降为周围灰尘并重新分组。引力场算法通过全局极值和多极值两种方式验证,并与其他算法进行比较,结果证实引力场算法具有很高的执行效率。⑵引力场算法已应用于基因表达聚类算法中。聚类算法所采用数据是离散形式,需要将引力场算法修改。首先,质量函数需采用两基因间距离。然后,在灰尘初始化阶段,采用待求距离的两基因编号组成的二元向量作为灰尘随机初始化值。最后,在移动算子部分,根据中心灰尘和周围灰尘相应二元素的基因编号大小关系确定周围灰尘移动方式,与连续值移动不同的是每次移动只将编号加1或减1。同时该基因对标记为使用过,因为使用过的基因对不会产生连续数据那样的非预期值,所以使用过的基因对不再计算。聚类算法通过层次聚类和非层次聚类两种聚类方式进行测试。将引力场算法结果与其他算法结果进行比较,结果证实引力场算法具有很高的执行效率。⑶引力场算法已应用于基因调控网络构建算法中。数学模型采用微分方程模型,取值范围采用奇异值分解方法确定。奇异值分解是将基因表达值矩阵在广义逆矩阵定义下分解为三个矩阵的乘积,并以此求出网络权值矩阵的特解,进一步可求出所有可能的权值矩阵的通解。引力场算法中,最小二乘方公式作为质量函数进行优化。在灰尘初始化阶段用权值矩阵作为灰尘进行随机赋值,赋值结果需通过通解验证,若未通过需重新随机赋值。在移动算子部分,需对周围灰尘和中心灰尘N×T个对应元素进行比较,若元素值不相等,则周围灰尘元素值向中心灰尘元素值移动。得到新灰尘值后将其进行通解验证,若不能通过则重新移动,若能通过进行下一步移动。网络构建算法通过模拟数据和真实数据验证。实验证实引力场算法在基因调控网络构建算法中具有极高的执行效率。⑷引力场算法已应用于基因表达数据的模拟算法中。通过无标度网络重连接构建算法模拟基因调控网络。通过计算得到候选父节点,以概率r选定该节点,若未选定以概率1-r选定该节点的祖先节点作为父节点,即强调中心控制节点的作用。用引力场算法模拟基因表达数据,通过奇异值分解获得表达值的解空间。灰尘采用矩阵形式,并随机初始化。在移动算子部分,周围灰尘的每个元素均向中心灰尘相应元素方向移动。用底数图验证重连接方法准确性,用三种网络构建工具包来验证引力场算法准确性。实验证实网络构建准确,引力场算法执行效率高。综上所述,本文提出的引力场算法是一种运算速度快,执行效率高的新型启发式搜索算法。此算法可应用于生物信息学的诸多领域,包括基因表达聚类,基因调控网络构建和基因数据模拟等,执行效果良好。也可将引力场算法应用于其他领域,发展空间很大。
其他文献
在原子光谱数据中,原子和离子的辐射跃迁参数(能级的自然辐射寿命、分支比、跃迁几率和振子强度等)对原子物理、等离子体物理和天体物理等领域的发展而言是一类极其重要的光谱学数据。由于稀土元素在许多领域有广泛而重要的应用,人们一直非常重视对稀土元素原子、离子辐射跃迁参数的研究。随着激光器的发明,激光光谱技术得到迅猛发展,这为原子离子辐射特性参数的研究提供了强有力的工具。本论文运用时间分辨激光光谱技术以及激
Schrodinger方程是量子力学中的基本方程,用来描述量子系统中关于原子,分子,亚原子等粒子的自由态,束缚态,局部化的变化情况.本论文主要讨论不同边界条件下双线性Schrodinger方程的控制问题,给出了一维Schrodinger方程的能控性及其稳定化结果.本论文共分为四章.第一章主要介绍了双线性偏微分方程控制系统的重要性,Schrodinger方程的能控性和稳定化等基本概念,双线性Schr
核酸是生物体内极其重要的生物大分子,是生命中最基本的物质之一。它不仅是基本的遗传物质,而且在蛋白质的生物合成上也占重要位置,在生长、遗传、繁殖、变异等一系列重大生命现象中起决定性的作用。根据其化学组成不同可分为两类:脱氧核糖核酸(DNA)和核糖核酸(RNA)。从单分子水平对核酸和其它分子之间的相互作用进行研究有助于人们深入地理解与调控这些重要的生命过程,是人们解开生命奥秘的关键所在。基于原子力显微
职业倦怠是个体在重压下产生的身心疲劳与耗竭的状态,教师的职业特点等原因导致中小学教师的职业倦怠问题日趋严重。基于此,本文采用教师职业倦怠量表(MBI-ES)对兰州某学校107名教师进行调查研究,调查发现:职业倦怠感性别差异显著,男教师倦怠感强于女教师;从事教育工作的年限与倦怠感呈正相关;身体健康状况与倦怠感呈负相关;是否获得市级教学荣誉对于倦怠感存在影响;周课时量与倦怠感呈正相关;年龄、班主任工作
沙尔湖煤田位于吐哈盆地鄯善县东部,是我国特大型煤田之一。由于这一地区处于荒无人烟的戈壁滩,以往的地质调查主要是围绕着煤炭资源的勘探和开发展开的,有关地层古生物方面的研究程度较低。本文首次对新疆东部沙尔湖煤田中侏罗世植物化石进行了系统报道和较详细的研究,取得的主要成果包括:1.首次详细描述了新疆东部沙尔湖煤田中侏罗世18属29种植物大化石和34属48种孢粉化石,并对植物群的组成和性质做出分析和探讨。
碲化锡(SnTe)是一种典型的窄带隙四六族半导体材料,最近理论和实验研究发现它还是一种新型拓扑绝缘体。然而,SnTe高压结构的不确定性严重阻碍了人们对其电子性质的进一步探索。本文我们利用高压同步辐射实验结合第一性原理理论计算方法研究了SnTe的高压结构、相变机制和电子性质随压力的变化行为,得到以下创新性成果:1.通过对高压X-ray衍射实验数据、理论计算的热力学稳定性(晶体结构预测)、能垒以及声子
非局部抛物型方程作为一类重要的积微分方程,来源于许多领域,如相变,薄膜的外延增长等,在过去的十几年里,积微分方程得到了广泛的关注,本文将研究一类非局部抛物型方程的若干问题.由热力学原理,我们有m是迁移率或者扩散系数.对流项β·▽B(u)[6,19].我们定义非局部化学势能我们得到如下非局部抛物型方程其中H(u)=∫ΩJ(x-y)dyu(X)-∫ΩJ(x-y)u(y)dy,B(U)=|u(X)|q,
本文在重尾索赔下,研究了四种基于整值时间序列离散风险模型的渐近推断问题.首先,考虑了索赔计数过程满足Poisson INMA(1)序列口Poisson INMA(q)序列离散风险模型,在C族重尾索赔下建立了累积索赔总额的精细大偏差,并借助大偏差的结果给出有限破产概率的渐近等价形式,同时利用蒙特卡洛法模拟破产概率并与我们的渐近结果比较,验证了结论的有效性.然后,又分别考虑了索赔计数过程满足Poiss
1a ú1.ú1±¢á-é è§.è ü,o£△u=Fu(x, u, v), x∈,△v=Fv(x, u, v), x∈,u=v=0, x∈,§D è¥ìú ê R2N-.,¨,KryszewskiSzulkinMorse-, o T μ é è§.T,£u+V (x)u=f(x, v), x∈RN,v+V (x)v=g(x, u), x∈RN,ú êN≥3, V (x)∈C(RN, R),Y§f
学位
具有积分边值的非线性微分方程具有广泛的应用性,例如热传导,等离子物理等许多实际问题都可以归结为带有积分边值条件的问题.因此,积分边值问题是国内外的研究热点.本文的主要工作是:利用拓扑度理论,同伦连续法等非线性分析理论和方法,研究高阶非线性微分方程的周期积分边值问题解的存在性和唯一性.第一部分我们主要研究高阶微分方程的周期积分边值问题.在推广的Laz-er型限制条件下得到偶数阶微分方程周期积分边值问