基于CNN-LSTM的蛋白质-DNA绑定位点预测研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:yshanhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质-DNA绑定位点是指能够与蛋白质发生相互作用的一段DNA序列,寻找蛋白质-DNA绑定位点可以帮助预测调控基因的功能,了解生物系统中的调节过程和识别致病变异体。更重要的是蛋白质-DNA绑定位点可以帮助设计能够促进或抑制目标基因表达的药物。因此,从DNA序列中精确地识别出蛋白质-DNA绑定位点是一项重要的任务。传统的基于生物实验来识别蛋白质-DNA绑定位点的方法存在成本高且耗时长的缺点。因此,设计一种基于深度学习预测DNA序列中的蛋白质-DNA绑定位点的方法十分有必要。具体来说,本文从不同角度处理蛋白质-DNA绑定位点的预测问题,并在Ch IP-seq数据集、不同物种的数据集以及不同细胞系的数据集中都取得了较好的效果。本文的主要工作内容如下:(1)本文提出了多核苷酸单热编码(Multi-Nucleotide One-Hot,MNOH)编码方式。MNOH编码方式的主要思想是考虑蛋白质-DNA绑定位点中相邻位置的核苷酸之间的相互关系,并将相邻的核苷酸编码成一个单热矢量。通过MNOH编码方式对DNA序列进行编码,使得模型在训练时能够充分利用DNA的序列信息,一定程度上提升了基于DNA序列预测蛋白质-DNA绑定位点的结果。(2)本文提出了融合多尺度卷积神经网络和长短期记忆模型来预测DNA序列中的蛋白质-DNA绑定位点。针对蛋白质-DNA绑定位点长度不定的特性,本文利用多尺度卷积神经网络自动学习DNA一级序列的多尺度特征,以捕捉不同长度的绑定位点的特征,然后蛋白质-DNA绑定位点的判别信息则由长短期记忆模型生成。(3)本文提出了名为Deep TF的预测器,该预测器将MNOH编码方式和融合模型相结合。为了验证Deep TF在蛋白质-DNA绑定位点的预测任务中的有效性,本文在Ch IP-seq数据集、不同物种数据集以及不同细胞系的数据集上使用了不同的网络结构,对比实验结果表明融合模型在预测绑定位点任务中的表现较好。本文提出的基于DNA序列预测蛋白质-DNA绑定位点的预测方法,充分利用了DNA序列的相关特性,在多个数据集中均达到了较好的预测效果。
其他文献
近年来,机器人及人工智能技术飞速发展,在诸多应用领域体现了巨大的应用前景。自主导航能力是移动机器人深层次应用的基础,而机器人的实际运行环境中往往或多或少的存在不确定因素,如地图未及时更新或临时出现的人或物体等,因此,机器人对环境的适应能力也至关重要。同样发展迅猛的深度学习技术,使机器人具备自主学习能力成为可能。本文研究了移动小车的避障和自主导航技术,其运行环境的二维示意图已知,且其中存在不确定的障
随着科技的不断发展,信息安全事件的频发引发了大众对于保密通信技术的重点关注。传统通信方式存在保密性漏洞、容量限制、攻击保护低效、设备成本高等问题。而混沌系统具有高度的随机性、非周期性和不可预测性,新型混沌通信系统具备高容量的动态存储能力及相对较低的设备成本,显示出了明显的技术优势和广阔的应用前景。本文针对几类分数阶混沌系统,设计了新型完全同步及广义同步控制策略,并对其进行了保密通信应用研究,主要工
近年来液化天然气工业发展极其迅速,铁路运输是LNG最经济、高效的运输方式,为此,中车集团某公司研制了铁路运输专用LNG储罐箱。为确保LNG铁路运输的安全,需要在铁路运输专用LNG储罐箱上设置LNG罐箱工况采集装置,并通过无线网络集中收集工况数据,对LNG储罐进行实时监控。本文详细分析了课题关键技术的国内外发展现状,结合LNG铁路运输的实际情况,研究并设计了LNG储罐车储罐工况参数监测系统。该监测系
驾驶机器人结构灵活、能够适应不同类型的车辆,本文在课题组对无人驾驶机器人车辆横纵向协调控制研究的基础上,为了能够了解被操纵车辆动力学特性的前提下,更好的操纵不同类型的车辆,研究了驾驶机器人车辆的纵向动力学特性学习方法与纵向动态控制。首先,介绍了驾驶机器人的性能指标。并分析了驾驶机器人换挡机械手、驾驶机械腿的结构特征。在此基础上,建立驾驶机器人各机械臂的运动学与动力学模型。接着,介绍了驾驶机器人车辆
视觉里程计(Visual odometry,VO)是通过视觉传感器来获取运动物体的位姿的一种方法,在自动驾驶、机器人自定位和增强现实等方面发挥了重要的作用。由于其低廉的成本和广泛的应用场景,近年来成为视觉领域一个讨论和研究的热点。基于几何法的传统视觉里程计十分依赖特征的选取和匹配结果,并且单目VO还存在尺度不确定的问题。而随着近年来深度学习的兴起,深度神经网络在各种视觉任务中都得了不错的成果,因此
随着社会生产的飞速发展,物流与仓储在供应链中的地位日益提高,传统仓储行业仍存在自动化水平低、功能单一且落地成本高等不足。自动化仓储技术通过计算机信息管理和电气控制,可以有效地完成货物自动存取作业,货物库存的高效管理,对降低物流与仓储成本,提高运输效率具有重要的意义。本文主要研究自动化仓储系统调度优化方法,主要包括基于条码识别的A-ABC货物分类法、货位分配调度优化算法等。本文主要工作及成果如下:(
视觉里程计是无人车导航领域的研究热点之一,它是利用装载在移动机器人上的一个或多个相机采集到的图像信息,对其自运动进行估计的过程。其中单目视觉里程计仅利用单个相机的图像信息,有着低成本、易配置、结构简单以及计算效率高等优点,成为了研究的热点。而近年来深度学习已广泛应用于计算机视觉任务中。因此本文结合深度学习,对单目视觉里程计进行研究。首先,针对深度神经网络中由于深度神经网络在网络层数较深产生的梯度消
在机器学习中,将不同类别的样本数量存在显著差距的数据集认为是不平衡数据集。当代表一个类别的样本数量远低于其他类别的样本数量时,这一个类或多个类在数据集中的代表性可能不足,就会发生类别不平衡问题。然而,为了提高准确性或者最优化相应的代价函数,正确预测多类实例的规则将会收到更大的权重,因此标准的机器学习算法通常偏向于数量多的大类,从而忽略了少类样本,导致小类样本比大类样本更容易被误分类。事实上,从应用
随着深度学习的发展及神经网络在图像识别等计算机视觉任务中取得的显著效果,使得深度学习在诸如目标追踪、目标检测、行人再识别、图像检索等计算机视觉任务中被广泛应用。显著性检测作为一项在其他计算机视觉任务中的数据预处理技术成为了研究的热点,随着视频设备的普及,人们面对的场景往往是动态变化的,所以视频显著性检测成为一个热门的研究方向,它旨在通过特定的算法检测出连续运动的能引起人眼关注的显著性目标。本文将视
热变形是影响数控机床加工精度和定位精度的最大误差源,而滚珠丝杠副作为数控机床的关键功能部件,控制丝杠轴的热变形是提高数控机床精度的关键。丝杠预拉伸作为高效易操作的热变形补偿技术手段,在数控机床领域应用广泛,但目前对于预拉伸量主要按照经验取值,缺乏系统研究。本文以国家科技重大专项为背景,首先建立了滚珠丝杠副预拉伸量与热变形量理论模型,然后对理论模型进行了有限元分析和试验验证,最终建立了不同工况下滚珠