基于机器学习和特征融合的6mA位点预测

来源 :天津大学 | 被引量 : 0次 | 上传用户:gaofeinei3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2018以来,越来越多的6mA位点相关数据被发现。同时6mA位点的识别也开始受到越来越多学者的关注。6mA位点的识别在生物信息学领域具有重大的意义。目前,越来越多的6mA位点识别的方法被提出来。其中,大多数学者都采用到了机器学习的方法来识别6mA位点并且都取得了不错的效果。但是,相比于众多的数据和物种,仍然需要更多的计算方法来进行识别。目前多数传统的机器学习或者深度学习方法都只在单一物种上有效。因此需要更好的计算方法来进行多物种的识别。除此之外,6mA位点识别的计算方法中深度学习方法相对较少。随着深度学习的不断发展,深度学习计算方法也开始应用于6mA位点的识别中。所以发展深度学习方法也是一种趋势。在这项研究中,我们针对不同的物种提出不同的模型进行识别。在针对水稻基因中6mA位点的识别中,我们引入了传统的机器学习方法并在特征方法上做了很多工作以此来改善机器学习模型的效果。其中,我们提出了马尔可夫特征提取算法,同时我们还采用了特征融合的方式来进一步提升模型的性能。最后,通过对模型不同阶段的优化来实现整体的优化。我们将这个模型叫做6mA-Rice Pred。在多物种6mA位点识别中,我们也开始引入深度学习方法来解决这一问题。我们提取了人类,水稻,老鼠相关数据并进行了大量的实验对比。通过引入LSTM和注意力机制来构建一个在多物种6mA位点识别上有效的方法。除此之外,模型通过和不同物种的现有模型进行比较来验证模型的有效性。我们将这个模型叫做6mA-Pred。
其他文献
功能性短肽是一类具有特定生物活性和功能的短肽。研究表明,许多功能性短肽可以应用到药物研发和癌症医疗之中,比如细胞穿膜肽和群体感应肽。这些功能性短肽的识别研究对于进一步了解其功能机制并将其应用于医疗领域尤为重要。目前已有许多研究工作致力于对功能性短肽的预测识别中,其中基于机器学习的方法可以完成更加快速准确且低成本的预测。在本项研究工作中,本人分别针对以下两种功能性短肽的基于机器学习的预测方法进行了深
学位
随着科学技术的飞速发展,生物学、医学等领域与计算机的关系越来越紧密,它们已经开始朝着数字化的方向发展。单细胞测序、医学图像以及药物设计等每时每刻都在产生大量的数据,这些海量的数据给研究人员带来了巨大的挑战。特征排序和降维是机器学习和生物信息学研究中的关键方向。特征提取后的生物序列数据可以通过机器学习进行科学研究,但是经过提取的特征中存在很多问题,例如特征与特征之间容易出现冗余问题。我们通常只希望使
学位
“厕所革命”,民生工程。2014年12月,习近平总书记在江苏调研时表示,解决好厕所问题在新农村建设中具有标志性意义。本文以高寒、缺水地区旱厕建设为案例,旨在研究通风、安全、低能耗、无害化、资源化的生态旱厕。论文结合实际试点建设工程,研究生态旱厕在高寒地区安全稳定运行的可行性,主要内容和成果为:(1)对旱厕系统工程进行整体性设计。根据实际调研,确定旱厕建设地址,以及旱厕设计面积大小。结合当地实际,设
学位
高热湿环境广泛存在于人的生产和生活中,当人们处于这种环境生产或生活一段时间,会影响人体的热舒适感,甚至影响人员的身体健康,严重者可能导致生产事故的发生。因此研究高热湿环境对人体客观和主观参数的影响具有重要的意义。本文的研究目标是以人体热反应为依据,开展人体热应激实验,提出人体综合生理指标,将高热湿环境进行分区,通过识别不同分区的安全劳动时间,建立综合生理指标与环境参数的预测模型,为缓解劳动人员的生
学位
随着经济的发展和工业化进程的加快,挥发性有机物(Volatile Organic Compounds,VOCs)的排放量急剧增加。严重威胁着人类和环境。吸附技术因由于其具有易于操作、灵活、有效和低成本的等特点在VOCs处理技术中尤为突出。其中多孔碳吸附剂应用更为广泛,可以由化石燃料、生物质和其他富含碳的原料生产得到。生物质作为可再生原料,具有高含碳量和低成本的特点,逐渐被作为制备活性碳的优良原料。
学位
高分辨率、宽视场的正射影像是影像地图的基础数据,可用于林业、气象、水利、规划等政府部门。随着人工智能的发展,无人机由于具有响应能力强、飞行高度低、时效性和性价比高等优势成为正射影像采集的主力军。但因无人机飞行能量限制,如果不进行合理的路径规划,则会降低正射影像采集的效率。本文以无人机正射影像高效、集约采集为应用背景,对限定条件下的无人机区域覆盖问题进行研究探索,寻找一条能够让无人机平滑跟踪且能量最
学位
当今常用的谣言检测模型受人为因素的影响,难以挖掘信息的潜在特征。推文中图片内容的占比越来越大,如果忽略图片信息,仅从文本角度很难全面检测推文的可靠性。本文针对当今谣言检测方法的缺陷,提出基于多模态和深度学习的Twitter谣言检测模型。主要工作和成果包括:(1)本文提出了一种基于深度学习的BLSTM-CNN谣言检测模型。该模型由双向LSTM和多核CNN组合构成,通过它来挖掘谣言文本的潜在特征。首先
学位
随着我国税务征管方式的日臻前沿,互联网时代对企业税务风险管理工作提出了更高的要求。尤其是集团型企业,规模的不断扩张的同时税收管理风险也在同步提升。本文从集团型企业税务风险的特征出发,剖析了风险形成的原因,并提出了具体对策。在全新的"大数据"税务生态环境下,只有集团化税务管理的有效落地才能降低税务管理类风险的发生。
期刊
房地产企业需根据法律法规要求缴纳税款,享有权利的同时履行义务,在税负政策的支持下稳健营运。税务风险与房地产企业未能深入解析税负政策及轻视税务管理等有关,目前税务风险管理作为企业风险管理分支,受到了房地产企业的重视。文章探索了房地产企业税务风险管理的难点及措施,以期提高房地产企业营运综合管理质量。
期刊
本论文研究的内容是基于语音和人脸图像跨模态生成方法的研究,包含两个任务。第一个任务是从语音重建人脸,第二个任务是人脸图像的个性化语音合成。对于语音重建人脸任务,在本文中,设计了一种基于编码器-解码器结构模型,并将残差先验信息的思想引入模型,提出一种基于注意力的残差先验语音重建人脸模型,该模型将面部先验特征与语音特征合并,送入人脸特征解码器以形成最终的人脸图像。本文提出一种联合损失函数,该函数是L2
学位