论文部分内容阅读
大规模的基因表达分析已经被广泛用于表征在各种疾病条件、遗传扰动等条件下的细胞状态。随着科技的发展,虽然全基因组表达值的成本已经逐步下降,但是要生成一个成千上万的样本的基因表达值仍然是非常昂贵的。认识到基因表达通常是高度相关的,美国国立卫生研究院LINCS项目的研究人员开发了一种经济有效的方案,他们挑选出了大约1000个左右的landmark基因,并证实这些挑选的基因能捕捉到80%左右的信息。那么就可以利用这些较少的基因,使用一些机器学习的知识,在较短的时间内以较高的准确度进行模拟全基因组的基因表达值分析。机器学习的方法有较多,常见的如线性回归、决策树、神经网络、支持向量机以及一些聚类方法等。其中,LINCS项目组使用了基于线性回归的方法;Yifei Chen,Yi Li等人使用了深度学习的方法。但是上面两种方法仍然存在一定的缺陷,线性回归不能捕捉到基因表达间复杂的非线性的关系,所以准确度不高;而深度学习的方法虽然在准确度上比线性回归好,但是过于复杂,花费的时间较长。综合线性回归和深度学习这两种算法各自的优缺点,本文提出一种基于卷积神经网络的深度学习的基因表达预测方法。通过自组织特征映射神经网络SOM将原始数据集转换成区域内相似的二维数据,然后将转换的数据利用卷积神经网络的方法做训练。由于数据集数据量大而且网络结构复杂,不使用GPU加速会严重影响训练速度,因此需要通过GPU加速深度学习速度,最后验证结果。为验证基于卷积神经网络的基因表达预测算法的可行性与预测准确度,本文分别使用了GEO、GTEx、1000G三种数据集进行实验,并与以上两种算法做对比分析。