论文部分内容阅读
随着生命科学和计算机科学的迅猛发展,生物数据呈指数级增长,在质量和数量上都极大地丰富了生物信息学的数据资源,为解开生命奥秘提供了数据基础。基因芯片技术作为分子生物学在实验领域的一项重大突破,被应用于测量基因的表达水平,为探索生命的本质提供了极大的便利,成为探究生命奥妙的重要工具之一。基因表达谱是在基因芯片的基础上,通过杂交测序方法,利用探针标记所得互补序列而来。根据基因在不同条件下表达的差异,利用基因表达谱可以进行环境检测和防治、药物筛选、基因功能发现、复杂疾病诊断、个性化治疗、农作物优育优选及司法鉴定等。因此研究基因表达谱具有重要的理论价值和应用意义。尽管获取全基因组表达谱的成本在逐步下降,然而基于基因芯片技术产生数千甚至上万条基因表达谱数据,不仅生物过程繁杂,而且一般的实验室无法承担这一高额的费用。NIH LINCS研究人员分析了约1000个精心挑选的landmark基因,并依托线性回归的方法推测剩余target基因的表达。但是线性回归预测基因表达的方法往往忽略了基因表达谱数据的非线性特征,无法精确的预测基因表达。BP神经网络可以提取输入和输出数据之间较为复杂的非线性映射,LSTM神经网络可以捕获输入数据之间的相互作用,将二者结合起来可以方便的从原始数据中抽取高级特征表示。通常,大多数基因表达谱数据通常具有样本少且维数高的特点,因此使用深度学习算法拟合基因表达谱数据非常容易出现过拟合现象。本文针对以上问题,利用BP和LSTM神经网络提取基因表达谱数据的非线性特征的同时,引入迁移学习策略和正则化技术,有效解决了深度学习算法在小数据集上容易过拟合的问题。鉴于此,本文开展了基于DCIOBP和LSTM的基因表达预测研究。研究内容如下:(1)针对原始基因表达谱数据维度高,且存在冗余基因和无关基因的特点,本文利用无监督聚类算法K-means对原始基因表达谱数据进行去重处理。为了消除实验技术所引起的表达量的变化,并使每个样本的数据和平行实验处于同一水平,本文将去重后的数据进行标准化和归一化处理,为回归预测模型的构建做好数据准备。(2)针对传统的线性回归方法预测基因表达,忽略了输入和输出数据之间的非线性特征的问题,本文采用BP神经网络自动提取landmark基因和target基因之间的非线性特征,再结合输入到输出的直接连接方法,将输入数据和输出数据之间的线性特征添加到预测模型中,综合考虑landmark基因与target基因之间的线性和非线性特征,提升模型的预测能力。(3)为了提升基因表达回归预测精度,本文利用LSTM神经网络自身的门控单元,捕获输入数据landmark基因的长期依赖信息,结合第三章所提出的基因表达回归预测模型,预测target基因的表达;通过引入迁移学习策略和正则化技术,解决了深度学习模型拟合小数据集时容易过拟合的问题,并且提升了回归预测模型的跨平台预测能力。