基于BP神经网络的必需基因的预测与分析

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
必需基因是指在一定条件下,维持生物体的生命活动所必不可少的基因。正确鉴定必需基因对研究一个物种赖以生存的最小条件、揭示进化过程中物种的关系和确定潜在的药物靶点等具有重要作用。由于实验方法鉴定必需基因有花费高、耗时长、易受环境影响和不同实验方法鉴定结果不一致等不足,因此理论预测必需基因存在很大的发展空间。机器学习是一种比较常用的理论预测方法,作为机器学习的一种常见方法,BP神经网络(Back Propagation Neural Network,简称BPNN)在处理非线性等复杂问题表现出较好的能力,具有较强的容错能力,在生物学、生物信息学等领域以及实际生产得到了很多研究和应用。但目前基于人工神经网络(Artificial Neural Network,ANN)预测必需基因的研究存在分析物种局限、预测形式单一、应用到的特征有限并且没有对关键特征进行筛选等不足。论文以NCBI和DEG数据库的基因库为研究对象,使用常见的模式识别流程,采用人工生成基于序列的特征和基于文本分类生成特征两种方式,建立BPNN模型预测必需基因。主要工作如下:(1)基于57维特征应用神经网络预测必需基因。选取31种原核生物的基因组作为分析对象,并在此基础上人工提取57维基于序列的特征。由于必需基因数量远远少于非必需基因,采用重复采样法和抽样法解决样本不平衡问题。结合现有研究理论和经验公式,通过反复实验选取了合适的模型参数,同时使用并比较了常用的神经网络权值改进训练算法。在选择好ANN模型参数之后,着重设计了四种实验形式并展开预测:单个物种自预测、留一物种法、单个预测总体及总体自预测,使用十折交叉验证评价实验结果,分析结果及不足。(2)提出基于WPCA(Weighted Principal Component Analysis)的方法进行关键特征子集的研究。WPCA使用主成分分析计算出来的特征向量矩阵对各特征的贡献度,计算得到各特征的相对重要度,并选择相对重要度最大的特征作为关键特征。其中,与基因组成有关的特征重要性得分较高。在实验中,WPCA方法实现了对基于基因序列特征的有效选择,将原始特征从57维减少到26维,同时预测结果在相同的四种实验形式中基本保持不变。该结果与特征提取实验相结合验证原始特征数据集存在一定冗余性,而基于WPCA的特征选择方法能有效地剔除这些冗余信息,同时使得必需基因预测所需时间变短。(3)基于文本分类方式自动生成特征。传统人工提取基于序列的特征费时费力,寻找新特征非常困难。因此借鉴文本分类方法,经过基因表示、特征词选择和权重生成等方法,批量生成特征。最终仍然采用57维基于序列特征预测实验中所使用的四种预测形式,使用BPNN预测并分析结果。
其他文献
DNA是一种生命遗传信息的载体。金属配合物与DNA之间的相互作用越来越受到科学家们的关注。电化学基因传感器是分子生物学研究中一种全新的基因检测技术,由于其选择性好、测
催化燃烧是最高效、节能和环境友好的VOCs治理技术之一,而在实际工业处理中,一些特殊行业的VOCs气体往往含有一定量的硫,这些硫化物存在会与催化剂中的活性位结合,破坏催化剂
随着社会的不断发展,人们对于电化学储能元件的需求日益迫切,使之成为科研领域目前的一大研究热点。在众多材料中金属氧化物有着优越的电化学性能,较高的理论比电容、出色的
煤矿供电的稳定性是保证煤矿安全生产的前提条件。煤矿供电监测与故障预警系统可通过对供电相关参数的监测实现故障预测和诊断,提升煤矿供电的可靠性。本文分析了电气设备常
白马硐铀多金属矿床位于贵州省开阳县白马硐地区,地处扬子陆块西南缘,矿区断层发育,褶皱不发育,经过多期热液蚀变,蚀变种类繁多,主要为硅化、黑色蚀变,其次为重晶石化、粘土
我国是以农业为主的国家,钾作为农作物生长不可或缺的重要营养元素,在我国农业生产中有着十分重要的特殊地位。钾作为不可再生资源,在我国储量仅占世界钾储量的很小一部分,且
灰家堡金矿田是黔西南卡林型金矿床矿集区中重要金矿产地之一,该矿田处于扬子准地台西南缘与华南褶皱系右江褶皱带之交接部位。灰家堡金矿田主要包括水银洞超大型金矿床、紫
我国的经济发展长期采用粗放型模式,给环境带来了很大的危害,其中水环境的氮素污染尤为严重。传统生物脱氮理论认为硝化过程是在好氧条件下进行,反硝化过程只能在厌氧或缺氧
可鲁克湖流域南北贯穿青海省海西蒙古族藏族自治州德令哈市,位于柴达木盆地北部的次一级盆地-德令哈冲洪积扇盆地内。可鲁克湖流域是柴达木盆地生物多样性最为丰富的地区,对
长期以来我国经济发展主要依靠“先污染,后治理”的传统模式,在有限的环境和资源倒逼机制下,制造型企业为环境责任的主要承担者,企业“绿色化”被认为是解决环境、资源和经济矛盾的重要手段,绿色转型为下一轮经济增长的前提。本研究从企业绿色转型的概念介绍入手,分析梳理关于企业绿色转型的相关文献,并结合政府环境规制理论、市场引导理论、内生增长理论、推-拉-锚定模型等相关管理学理论,从制造型企业的实际情况出发,分