RNA结合蛋白预测的分类模型研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:luke_2013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核酸结合蛋白(Nucleic acid binding proteins,NABPs)是通过与核酸相结合发挥作用的一类蛋白质,分为脱氧核糖核苷酸(Deoxyribonucleic acid,DNA)结合蛋白和核糖核苷酸(Ribonucleic acid,RNA)结合蛋白两大类。核酸结合蛋白在基因转录、翻译、基因调控等多项生命活动过程中都发挥着重要的作用。随着蛋白质工程不断深入研究和交叉学科的深度融合发展,核酸结合蛋白特别是RNA结合蛋白的预测问题成为生物信息学领域研究的热点之一。当前,针对RNA结合蛋白的研究主要分为传统生物实验方法和计算方法。传统的生物实验方法往往具有实验周期长,实验的人力物力成本高,实验难度大,实验环境不确定因素等限制,因此,无法很好地应对爆炸性增长的蛋白质序列数据。随着多学科融合尤其是人工智能的发展,机器学习技术被应用到RNA结合蛋白预测领域,并得到了不错的效果,但仍然存在一些局限性和不足:(1)真实的RNA结合蛋白数据类别分布是高度不平衡的,这会使得分类器偏向于多数类,从而导致识别RNA结合蛋白的性能低下;(2)用于描述蛋白质的特征向量的维度往往比较高,在样本数量不足的情况下可能导致维数灾难,使机器学习方法的分类性能在一定程度上有所降低;(3)常用的基于物化属性的特征和进化保守性的特征往往经过复杂的人为设计,不利于发挥深度神经网络的表征学习能力,并且进化保守性特征的获得往往需要专门工具基于大规模的蛋白质数据库比对,需要较高的计算机资源和较长的计算周期,限制了模型的广泛应用。因此,本章节将利用机器学习和深度神经网络的方法对RNA结合蛋白预测模型进行进一步的改进。本章节针对这些问题提出了新的RNA结合蛋白分类预测模型,主要内容包括:(1)基于XGBoost特征选择的支持向量机预测模型。该模型主要是针对小规模数据的分类预测,在没有使用生物信息特征的情况下有效地提高模型的预测精度。使用XGBoost从高维的蛋白质序列的三肽模式统计特征中选择最优子集,同时利用SMOTE算法进行数据平衡化处理。实验结果验证了所述方法是有效的,在标准数据集上的结果明显优于其他模型,在MCC和AUC两个全局性能指标上均获得了超过2%的提升。(2)基于短肽链频率的深度学习方法预测RNA结合蛋白。该模型主要是针对大规模数据的分类预测,将蛋白质序列数据看成类似文本数据,使用二肽和三肽频率作为类似于文本分类中的单词频率,采用XGBoost算法与卷积神经网络融合的方法对多物种的RNA结合蛋白进行预测。结果表明,在10折交叉验证中,该模型在人类、大肠杆菌和沙门氏菌数据集上的AUC分别达到0.94、0.97和0.94,在独立测试集上的MCC分别达到0.66、0.68和0.73。AUC的值分别达到0.91、0.96、0.91。此外,该模型在跨物种测试中表现出更高的稳定性和更好的泛化性能。这使得该方法为跨物种RBP研究提供了新的思路。
其他文献
供给与需求对价格变动、市场的生产销售具有深远影响,也是影响经济增长的重要因素,供求关系及供求平衡理论对于不同形态的社会经济活动都具有指导价值。马克思从经济本质关系的角度出发,对供求平衡、社会再生产与供求、有效供求、供求与价格等进行了深入分析,构成了马克思供求理论的重要组成部分。马克思供求理论对社会主义市场经济具有指导意义,其基本原理对我国经济政策的完善和产业的发展具有重要的指导价值。从马克思供求理
学位
无人飞行器借助其良好的适应能力、生存能力、低成本和高效率等优势,已经逐渐代替人类完成危险、高难度的任务。具备优秀的视觉能力是无人机在分析场景信息、及时作出调整、保证完成任务的必要条件。随着计算机视觉的不断发展,目标检测已经成为无人机应用的核心技术之一。然而,无人机图像多为俯视图,所包含的目标具有体积小、特征模糊、分布无序、容易遮挡等特点。所以,这类小目标检测面临的挑战有:1)小目标检测模型可以包含
学位
自2008年以来我国居民部门债务一直呈现高速加杠杆态势。根据国家金融与发展实验室公布的数据,居民杠杆(居民部门债务/GDP)由2008年末的18.9%上涨至2021年末的62.2%,在短短13年不到的时间内上涨了两倍有余,已接近国际货币基金组织指出的警戒线,即居民杠杆超过65%可能会影响金融稳定。在当前我国宏观经济“稳增长”和“防风险”双重目标下,本文就居民杠杆的经济效应以及如何有效调控居民杠杆展
学位
金属-有机框架化合物(MOFs)由于拥有大的比表面积、可调节的孔径结构、丰富的氧化还原位点和催化活性位点等优点在电极修饰材料及催化领域上倍受关注。多金属氧酸盐(POMs)具有可逆接收电子和质子的能力、尺寸的可调节性以及高的化学稳定性等优异的物理化学特性。多金属氧酸盐基金属-有机框架化合物(POMOFs)兼具POMs和MOFs的结构优点,是一类极有应用前景的功能材料。本论文以微纳结构镍钒酸盐基金属-
学位
随着我国家庭财富的逐渐积累,如何更好的优化家庭资产的配置,使普通家庭能享受到经济发展的红利成为当前的热点研究问题。家庭资产是社会资产的重要组成部分,科学合理的进行资产配置,可以对社会经济发展起到重要的作用。党的十九大报告强调,加强社会保障体系建设,深入完善多元化社会保障体系,社会保障是家庭生活中不可缺少的一部分,同时也是一道重要的保护屏障,对家庭资产的配置产生重要影响。本文利用中国家庭金融调查与研
学位
本文提出了时间分数阶扩散方程的一种基于时间上有限差分格式和空间上Legendre谱配置法的稳定且高阶的数值算法,并通过迭代方法对时间分数阶扩散方程的导数阶进行估计。对于时间分数阶扩散方程。首先,我们利用四次Lagrange插值对方程进行时间离散,导出有限差分格式和弱形式。其次,我们证明了弱形式的稳定性,并进行了误差估计。然后,我们通过Legendre谱配置法对半离散解作空间近似,估计了误差并证明全
学位
当前,初中古诗词教学在教师的教和学生的学上都出现诸多亟需解决的问题,若能把微课与古诗词教学有机结合起来,那么将极大优化课堂教学,使传统教学焕发出新的活力,让学生充分感受到古诗词的魅力。本文主要利用文献研究法、问卷调查法、访谈法、案例研究法等多种研究方式,力图探索适合初中语文古诗词的微课教学方式,丰富古诗词的教学内容,激发学生学习古诗词的兴趣,从而提升学习效率,提高学生文化素养。本文主要由以下五个部
学位
贫困是人类历史进程中不可避免的经济现象。世界各国在经济发展进程中,都会面临贫困问题,这是全人类都亟待解决的问题。传统金融模式无法惠及所有的社会群体,诸如贫困人群、低收入人群等弱势群体常常被排斥在金融体系之外,无法通过金融服务减缓贫困境况。发展普惠金融能够提高金融服务的包容性,弱势群体也能获益于金融而缓解贫困。党中央在十九届五中全会上,将“脱贫攻坚成果巩固拓展”纳入“十四五”时期经济社会发展主要目标
学位
水体富营养化已成为全球环境问题,控制水体富营养化的关键是降低水体中磷的含量。吸附法具有吸附容量大、操作简便、能耗低、除磷性能高、污泥产量少和可循环利用等优点,一直是最有前途的去除和回收技术。本文采用溶剂热法,通过改变反应温度和铈与对苯二甲酸摩尔比,获得具有更多缺陷位的铈基金属有机框架(Ce-MOF),以实现对磷的优异捕获和富集;采用一锅合成法,通过铈掺杂水稳定性较好的铁基金属有机框架(NH2-MI
学位
科创板于2019年6月13日在上海证券交易所正式开板,是国家实施创新驱动发展战略,建设科技强国,推动经济社会高质量发展的重要举措。科创板发展迅速,截止2021年底,上市企业数量已达377家。科创板为广大证券投资者新增了一个广阔的投资平台,但相对主板和创业板也具有未来发展挑战、估值规则变化和股票强制退市等风险。为科学合理地防范风险,本文以科创板中“软件和信息技术服务业”42家企业为例,对科创板上市企
学位