论文部分内容阅读
人类基因组学的表达研究是数据与知识之间转化的一大实例,在生物信息学领域中占据着重要的位置。生物学中常用的方式是通过生物手段如基因芯片等来提取及预测基因表达谱。CMAP项目组构建了一个大规模基因表达谱库,并且发现某些小分子之间存在功能性连接。在人类已知的22000个基因的基因表达谱中,大多数是存在高度相关性的。在此基础上,NIH LINCS项目组挑选出了978个基因称为标志性基因,将剩余基因称为靶基因,并认为通过这些标志性基因的基因表达谱能够预测出剩余靶基因的基因表达谱值。这一想法能够很好地解决以往大规模基因表达谱预测费用昂贵的问题。人类社会在不断的发展过程中已经逐步开始进入人工智能时代,此时,学科融合成为技术发展的必经之路。因此,科学家们提出可以使用计算机方法通过标志性基因的基因表达谱值来预测靶基因的基因表达谱值。NIH LINCS项目组是最先开始寻找解决办法的,他们的初步尝试是线性回归算法,存在的缺点是不能够捕捉其中的非线性关系。接着,陈等人尝试使用深度学习即深度神经网络的算法来进行预测,能够在大多数靶基因的基因表达谱上达到比线性回归更低的平均绝对误差。本文基于深度神经网络的思路对该模型进行了部分改进,并称该模型为DNN-GEX。但该模型的输出维度较大,并且由于全连接的连接方式,模型参数较多,模型较复杂。在本文中,基于前人的实验,本文试图找到一种更高效更准确的算法来解决大规模基因表达谱的预测问题。首先,本文尝试使用卷积神经网络来减少模型参数,降低模型复杂度。选择这一算法的原因是猜测基因之间可能存在类似于图像像素点的局部连接关系。文章中将该算法构建的模型称为C-GEX。该模型的平均绝对误差比深度神经网络的结果要高,但能够有效缩短模型训练时间。其次,本文尝试使用轻量级梯度提升机这种集成模型,并将该模型称为L-GEX。该模型总体结果略差于深度神经网络,优于线性回归等线性模型,但训练时间过长。该模型的结果有一个特点,即在部分基因的表达谱预测中能得到较好的效果,但剩余部分较差。因此,实验中利用这一特性,以及卷积神经网络的特性——即训练时间短,尝试将两种模型进行融合,该融合模型称为LC-GEX。以上几种模型各有优缺点,本文的实验结果可以指导研究人员根据不同需求选择不同的模型:如果实验要求准确度尽量高,则选择混合模型;如果实验在要求准确度尽量高的同时希望时间尽量短,则可以选择深度神经网络模型;如果实验要求训练时间尽量短,则可以选择单卷积神经网络模型。