基于landmark基因集的深度学习基因表达预测方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yyyypolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的基因表达分析已经被广泛用于表征在各种疾病条件、遗传扰动等条件下的细胞状态。随着科技的发展,虽然全基因组表达值的成本已经逐步下降,但是要生成一个成千上万的样本的基因表达值仍然是非常昂贵的。认识到基因表达通常是高度相关的,美国国立卫生研究院LINCS项目的研究人员开发了一种经济有效的方案,他们挑选出了大约1000个左右的landmark基因,并证实这些挑选的基因能捕捉到80%左右的信息。那么就可以利用这些较少的基因,使用一些机器学习的知识,在较短的时间内以较高的准确度进行模拟全基因组的基因表达值分析。机器学习的方法有较多,常见的如线性回归、决策树、神经网络、支持向量机以及一些聚类方法等。其中,LINCS项目组使用了基于线性回归的方法;Yifei Chen,Yi Li等人使用了深度学习的方法。但是上面两种方法仍然存在一定的缺陷,线性回归不能捕捉到基因表达间复杂的非线性的关系,所以准确度不高;而深度学习的方法虽然在准确度上比线性回归好,但是过于复杂,花费的时间较长。综合线性回归和深度学习这两种算法各自的优缺点,本文提出一种基于卷积神经网络的深度学习的基因表达预测方法。通过自组织特征映射神经网络SOM将原始数据集转换成区域内相似的二维数据,然后将转换的数据利用卷积神经网络的方法做训练。由于数据集数据量大而且网络结构复杂,不使用GPU加速会严重影响训练速度,因此需要通过GPU加速深度学习速度,最后验证结果。为验证基于卷积神经网络的基因表达预测算法的可行性与预测准确度,本文分别使用了GEO、GTEx、1000G三种数据集进行实验,并与以上两种算法做对比分析。
其他文献
根据1994年南盘江水污染情况的调查、采样化验结果.对水污染的原因及影响进行分析,并提出相应对策,希望引起上级有关部门的重视.
生态环境是中国发展的瓶颈问题之一。环保产业具有公共品和战略新兴产业双重属性,具有很强的正外部性。中国环保企业存在融资难、融资贵问题。积极采取对策,助力中国突破解决
随着“两改-同价”的深入实施,电网经营企业的最低一级法人主体——县级供电企业以纯企业的角色融入市场竞争。体制的转型和新的发展,不仅需要县级供电企业打破计划经济体制下所
学习型城市是指以终身教育和学习型社会理论为指导,以营造城市文化和城市精神为灵魂,以不断推进全民学习、终身学习、主动学习、组织学习和促进教育社会化、社会的教育化为主线
以国家级示范院校建设为契机,我校以就业为导向,以服务地方经济为目标,依托职教集团的发展优势,通过对汽车运用与维修专业创新"前厂后校、工学交替、分层递进"的人才培养模式
近年来,大学生的创业孵化成了许多学者研究的热点,特别是对于像大学科技园、大学生创业基地等这样的机构的研究已经很成熟,但是对于大学生创业孵化服务的要求研究并不是很集中,为
"警用装备"是公安装备的一类,本文对"警用装备"的"全生命周期"活动状况进行全面分析、研究,对全生命周期中"定型列装"和"采购使用"两个阶段的划分、定义进行了阐述,对两个阶