基于BP和LSTM神经网络的基因表达预测研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:xxyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生命科学和计算机科学的迅猛发展,生物数据呈指数级增长,在质量和数量上都极大地丰富了生物信息学的数据资源,为解开生命奥秘提供了数据基础。基因芯片技术作为分子生物学在实验领域的一项重大突破,被应用于测量基因的表达水平,为探索生命的本质提供了极大的便利,成为探究生命奥妙的重要工具之一。基因表达谱是在基因芯片的基础上,通过杂交测序方法,利用探针标记所得互补序列而来。根据基因在不同条件下表达的差异,利用基因表达谱可以进行环境检测和防治、药物筛选、基因功能发现、复杂疾病诊断、个性化治疗、农作物优育优选及司法鉴定等。因此研究基因表达谱具有重要的理论价值和应用意义。尽管获取全基因组表达谱的成本在逐步下降,然而基于基因芯片技术产生数千甚至上万条基因表达谱数据,不仅生物过程繁杂,而且一般的实验室无法承担这一高额的费用。NIH LINCS研究人员分析了约1000个精心挑选的landmark基因,并依托线性回归的方法推测剩余target基因的表达。但是线性回归预测基因表达的方法往往忽略了基因表达谱数据的非线性特征,无法精确的预测基因表达。BP神经网络可以提取输入和输出数据之间较为复杂的非线性映射,LSTM神经网络可以捕获输入数据之间的相互作用,将二者结合起来可以方便的从原始数据中抽取高级特征表示。通常,大多数基因表达谱数据通常具有样本少且维数高的特点,因此使用深度学习算法拟合基因表达谱数据非常容易出现过拟合现象。本文针对以上问题,利用BP和LSTM神经网络提取基因表达谱数据的非线性特征的同时,引入迁移学习策略和正则化技术,有效解决了深度学习算法在小数据集上容易过拟合的问题。鉴于此,本文开展了基于DCIOBP和LSTM的基因表达预测研究。研究内容如下:(1)针对原始基因表达谱数据维度高,且存在冗余基因和无关基因的特点,本文利用无监督聚类算法K-means对原始基因表达谱数据进行去重处理。为了消除实验技术所引起的表达量的变化,并使每个样本的数据和平行实验处于同一水平,本文将去重后的数据进行标准化和归一化处理,为回归预测模型的构建做好数据准备。(2)针对传统的线性回归方法预测基因表达,忽略了输入和输出数据之间的非线性特征的问题,本文采用BP神经网络自动提取landmark基因和target基因之间的非线性特征,再结合输入到输出的直接连接方法,将输入数据和输出数据之间的线性特征添加到预测模型中,综合考虑landmark基因与target基因之间的线性和非线性特征,提升模型的预测能力。(3)为了提升基因表达回归预测精度,本文利用LSTM神经网络自身的门控单元,捕获输入数据landmark基因的长期依赖信息,结合第三章所提出的基因表达回归预测模型,预测target基因的表达;通过引入迁移学习策略和正则化技术,解决了深度学习模型拟合小数据集时容易过拟合的问题,并且提升了回归预测模型的跨平台预测能力。
其他文献
自Van Slyke提出缓冲容量的概念以来,许多研究者探讨了缓冲容量与缓冲溶液的组成以及外加强酸、强碱浓度之间的关系,并用缓冲容量的数值大小衡量缓冲溶液的缓冲能力。但是,
本文以现代企业风险管理为视角,根据内部审计发展的历史演变过程以及现代企业对内部审计的需求,探讨了风险管理、内部审计、内部控制、公司治理四者之间的有机联系,并设计了
近年来,每到一个供应链物流专业的交流场合,言必谈'供应链物流模式创新'的话题。交流得多了,笔者竟然发现腹中已然空空;交流得多了,竟然发现以往所谈所讲都是一鳞半
城市基层党建创新是将城市基层党组织建设成为党在城市中的坚强战斗堡垒的重要途径,城市拥有着复杂多变的社会结构,给城市基层党建工作带来了诸多挑战。自2007年开始,上海市M
《秦皇岛市志(1979~2002)》①基本篇目设计总结了1994年版《秦皇岛市志》②,全志分设10卷,卷下除总述、大事记、附录外按事物性质分设67志(相当于篇),志下一般设章、节、目、
在企业生存环境越来越复杂的情况下,企业管理者正在从各个角度控制企业发展中的风险,此时,内部审计组织也应该从自身出发,积极地帮助企业进行风险管理,内部审计与风险管理的
本文采用多种方法设计了Fe65Ni6Zr5W4B20、Fe60Co8Zr10Mo5W2B15、Fe61Co10Zr5W4B20、Fe60Co8Zr8Mo5W2Nb2B20等一系列的铁基合金成分。利用低纯度的原材料通过铜模真空吸铸法
为探讨南四湖优势物种光叶眼子菜在夏季浅水区的衰亡原因,用25℃、30℃、35℃和40℃的恒温水浴模拟夏季高温处理光叶眼子菜(Co.Potamogeton lucens L.)3h。生化结果显示,在35
目的:探讨体质量指数(BMI)结合基于高级迭代重建算法(ADMIRE)的冠状动脉计算机扫描成像血管造影(CTCA)对老年高危冠心病的诊断价值。方法:198例实施基于ADMIRE(强度1~5)的CTC
采用中频熔炼—铁模铸造—热轧—冷轧—热处理,制备了Cu-Ag、Cu-Zr和Cu-Ag-Zr三种合金。通过正交实验、硬度测试、拉伸测试、电导率测定、热导率测定、金相分析、XRD、SEM、TE