基于深度学习和推荐算法的基因组序列及功能研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:liulang75281899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因功能的研究,主要通过各种组学、算法和生物实验技术,将基因序列信息和基因功能联系起来。基因序列和功能研究不仅揭示了自然界中生物系统不同水平的生命活动规律,还与人类疾病防治、新药开发、抗性基因息息相关,推动着遗传学、发育生物学、医学、农学等学科发展。在信息时代,算法作为解决问题的重要工具之一,通过输入计算机识别的预处理信息,在短时间内快速获取所需要的输出,在各个领域中得到了广泛的应用。本文主要通过数学建模进行基因的序列和功能研究。本文第一部分将深度学习应用到人HIV-1病毒的染色质区整合位点预测上,取整合位点及其周围构成序列,k_mer切分后,进行词向量训练,然后构建深度学习模型,加入注意力机制,对影响越大的特征给予越大的权重,提高模型性能(AUROC提高了大约0.01)。我们通过对训练集随机抽样构成不同的弱分类器,最后采用模型平均的策略集成学习。在深度学习中碱基序列编码方式上,我们比较了传统的one_hot和基于词向量模型训练的word2vec、doc2vec、GloVe,发现GloVe具有最高的模型性能,AUROC为0.881、AUPRC为0.879。和其他模型对比,AUROC优于Min等人的LSTM-CNN模型0.645;我们平衡了正负样本,所以在AUPRC上也优于Hailin等人的0.511,AUROC也略高于Hailin等人的0.879。我们的模型具有更高的性能以及潜力,通过参数优化,也阐释了模型的有效性。本文第二部分基于推荐算法,通过多个lncRNA、蛋白质的相似性网络来预测lncRNA和蛋白质的相互作用关系。我们各取了3000条lncRNA、蛋白质,计算了它们的共表达相似性、基因序列相似性,构建成网络,通过重启随机游走算法来学习lncRNA、蛋白质的特征,最后通过双线性函数映射原理学习映射空间,对未发现的lncRNA-蛋白质的相互作用关系进行评分预测。经过十折交叉验证,取平均值,模型的准确率为0.971,AUROC达到了0.986,优于最新Xiao等人PLPIHS模型的0.968。模型可以对后续海量的基因相互作用提供思路,发现新的lncRNA-蛋白质相互作用关系,研究lncRNA的功能。
其他文献
11月21日至23日,民政部党组书记、部长李纪恒率队到甘肃省宣讲党的十九届四中全会精神,调研民政工作并召开座谈会。甘肃省人民政府副省长何伟参加调研和座谈。在临夏回族自治
在多波束卫星通信系统中,星上资源(功率、带宽和波束等)是有限的。为了满足多波束卫星通信系统中不同的业务需求,在考虑不同波束信道条件的基础上,提出一种具有波束选择的波
本文首先分析了一般重力式抗滑挡土墙的力系,指出滑坡推力的加入是抗滑挡土墙与一般挡土墙区别所在,在前人研究工作基础上,文中阐述了抗滑挡土墙设计的有关要求,并推导了抗滑挡土
以大量现场监测和调查资料为基础,反映了南京市交通、道路和汽车排气污染状况、并研究了南京主要路口汽车排气污染与交通状况的关系,论述了车流量、道路状况、机动车的类型和车
本文针对航空常用2×××系列高强铝合金进行搅拌摩擦点焊试验,分析搅拌头形貌对接头微观组织及力学性能的影响。
编者按 当万籁俱寂,朝阳尚未升起,人们都沉浸于睡梦之中时,我们的“城市美容师”——环卫工人们早已在城市的大街小巷忙碌起来;当万家灯火,夕阳早已退去,人们都在共享天伦之乐时,环
报纸
介绍了数据库知识发现(KDD)和数据挖掘(DM)的基本概念及其在企业“全质量”管理信息系统中的应用和新发展,提出了在大型质量数据库中为实现“全质量”管理的知识发现模型及其子系
西部大开发需要大力发展职业教育,需要一支高素质的职教师资队伍。西部民族地区应该从社会、高等院校、职校内部以及教师本人各方面挖掘师资培养潜力,构建职教师资的培养系统
<正>5月4日下午,由澳门大学中国历史文化中心、澳门民联智库共同主办的"第二届澳门大学中国历史文化论坛"圆满结束。是次论坛在澳门大学举行,会议时间一天半,以纪念中国新文
2005年夏、冬两个季节,分别在南京市4个大气自动监测站点进行为期7天的气溶胶PM2.5采样,同时用Anderson九级采样器在南京市2个站点采集不同粒径气溶胶颗粒物样品.结果表明,南