基于序列频率特征的蛋白质分类预测

来源 :海南师范大学 | 被引量 : 0次 | 上传用户:gzhp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为构成生命的基本有机物在生物体中发挥着重要作用,因此对蛋白质的分类识别具有重要意义——是探索生命规律的重要一步为后续研究奠定坚实的基础。随着蛋白质序列数量的急剧增加一些传统的生物实验已无法快速、有效的识别蛋白质,因此将机器学习算法引入到蛋白质组学中为蛋白质的分类研究提供了新思路,但在研究过程中仍存在一些问题:如蛋白质序列信息未能使用恰当的数字向量表示、分类算法选择不恰当等。通过总结分析目前研究中存在的问题,本文分别使用不同的特征提取算法与分类算法建立预测模型对激素结合蛋白、突触前和突触后神经毒素进行分类研究。激素结合蛋白作为一种载体蛋白与循环系统中激素调节有关在表达异常时会引起各种疾病,因此了解激素结合蛋白的功能及其调控机制就变得十分重要。本文通过建立HBP_NB预测模型对其进行分类研究,该模型首先使用k-mer(k=3)特征提取方法获取序列特征,然后使用F-score值特征选择算法选择与类别具有强相关性的特征、去除冗余特征获取最佳特征向量集,最后在朴素贝叶斯分类算法下将获取的最佳特征向量集进行分类预测并使用10折交叉验证对模型HBP_NB进行评估。此时10折交叉验证的准确率为95.45%,敏感性为94.17%,特异性为96.73%,这表明我们建立的模型具有有效性。神经毒素按其作用对象的不同可分为突触前神经毒素和突触后神经毒素。突触前神经毒素主要作用于突触前膜,由于酶活性的特定性它们通常阻断神经肌肉传递并抑制神经递质的释放;突触后神经毒素可以结合突触后膜和乙酰胆碱受体,例如β-甲氨基-L-丙氨酸能够损伤运动神经元可能是引起帕金森综合症的罪魁祸首。因此对神经毒素的研究将为药物靶点发现和药物设计提供重要线索。本文通过构建Neu_LR预测模型对其进行研究,该模型首先使用mono Mono KGap方法提取突触前和突触后神经毒素序列的频率特征并进行特征选择选取221维最佳特征向量集,然后基于降维后得到的重要特征使用逻辑回归算法构建预测模型Neu_LR并进行10折交叉验证和测试集验证,结果得到的准确率分别为99.6078%和94.1176%。因此证明Neu_LR模型具有较好的预测性能和鲁棒性,可以满足神经毒素的预测需求。
其他文献
在《普通高中数学课程标准(2017年版)》(以下简称"标准(2017版)")中,首次提出六个数学核心素养,而逻辑推理就是其中之一,其重要性不言而喻。逻辑推理能力是每个人都应该具备的一种能力,他能体现人们的认知发展状况。学生自身逻辑推理能力的形成和发展,不仅有利他们学习数学,而且对其他学科的学习也有极大的帮助,甚至对人际交往也有一定的影响。初中阶段是逻辑推理素养提升的关键时期,对初中生的逻辑推理能力
学位
高中数学中的“解三角形”主要涉及到正弦定理、余弦定理、三角函数和差公式、面积公式等知识点,它们在整个高中阶段起着承上启下的作用,在高考中占有很重的分值。这些知识点对学生的要求比较高,很多学生难以形成正确的解题思路,从而导致学习效率比较低。本文主要针对测试卷中“解三角形”知识出现的问题进行成因分析,归纳学生在“解三角形”问题上出错的原因,就此提出相应的对策。本文主要采用了文献分析法、问卷法、试卷分析
学位
针对红树林的重要性和红树林群落周边地物类别分类等问题,本研究选取了海南省海口市东寨港红树林国家自然保护区作为研究对象,基于卫星遥感技术获取多波段遥感影像,在此基础上对图像进行分割,实现红树林区域地物目标群落分布信息的快速准确识别,其次结合前一部分所提出的分类器的结果和置信推理规则建立遥感图像语义理解模型,模型能够完整提取地物目标信息,最后给出各个置信推理规则,为修复红树林湿地生态系统工作提供数据以
学位
这些年来,生物实验中发现的蛋白质越来越多,同时也带来了一个问题,我们需要去了解这些未知蛋白质的结构和功能。而传统实验的方式很难满足人们对于未知生物序列探索的需求,因此迫切的需要采用大数据的方式来探索蛋白质的结构和功能。对这些功能未知的序列进行准确、快速的功能预测和分类,可以促进人类的发展和进步。本文的主要工作包含以下两点:在嗜热蛋白的识别中,采用氨基酸(AAC)组成、伪氨基酸组成(Pse AAC)
学位
城镇化是现代化的重要标志,也是经济社会发展各方面表现的一个载体,是实现国家现代化的必由之路。我是来自蒙古国的留学生,蒙古国是一个畜牧业为主的国家。表面上看蒙古国的城镇化水平相当高,只有小部分人居住在偏僻落后的山区或牧区,使得城镇的居民人口总数占总人口人数的比例较大。但是城镇化的质量较低,蒙古国把居民人口的性质从农村变为城镇,不是实质性的城镇化。名义上城镇化地区的基础设施和建设还是比较落后的。此外,
学位
本文数据选取了全部A股上市公司2020年1月1日-2020年2月19日全部交易日的日度交易数据,以及同时期新浪微博平台用户评论的文本数据。以股票市场为例,从新冠疫情情绪入手,构建面板数据的固定效应模型,目的是通过探究新冠疫情情绪指数对股票市场的日收益率、日换手率、日振幅的影响,研究新冠疫情对证券市场的短期影响,旨在于为投资者理性投资和国家有关宏观管理部门积极应对突发事件,避免股市大起大落,制定合理
学位
赛教融合教学模式是以学科竞赛作为载体,将竞赛内容引入课堂教学,通过理论结合实践的教学方式,提升当代学生的实践能力和创新能力,培养兼具理论知识和创新能力的全面型人才。如今,赛教融合教学模式是教育研究的热点,该模式的推广对促进创新型人才培养有重要意义。因此,基于赛教融合教学模式满意度调查数据,分析其影响因素,对教师课堂教学、学校教学改革、人才培养计划的制定以及因材施教有现实指导意义。本文围绕赛教融合教
学位
随机微分方程是概率论与数理统计方向非常活跃的一个分支,已经广泛应用于金融数学、生物数学、机器学习、控制论等各个领域。由于生活中很多现象都受随机因素的影响,如果这些随机因素有平稳独立增量性,我们可以用带跳的随机微分方程来刻画。1938年,McKean-Vlasov考虑了粒子间有弱相互作用的系统,一个粒子与其他粒子的这种相互作用可以被平均场有效地代替。随后,Kac提出了一类dXt=σt(Xt,μXt)
学位
蛋白质是人体细胞的重要组成部分,在人类生存过程中扮演着重要的角色,它具有维持生命活动的各种功能,与许多疾病有着密不可分的联系。由于蛋白质的结构及形式是多样的,那么如何准确的鉴别出各个蛋白质是十分必要的,这对确定其功能特性也有着重要的意义。传统的生物手段对蛋白质进行识别耗时费力,而基于计算机的蛋白质识别方法更高效,能满足对现代生物学研究目标的需求。因此本文的主要研究内容是利用机器学习和深度学习算法分
学位
由于新冠疫情还未得到完全控制,很多地区的学校统一采取线上教学的方式给学生授课,在线课堂成为他们日常的上课环境。而在线课堂一般采用非面对面的形式授课,老师看不到学生们的上课状态,认真听课与否大多取决于学生的自觉性,所以如何通过改善在线课堂的设计要素吸引学生的注意力,成为完善课堂智能化建设一个亟需研究的课题。针对这一现状,本文通过实验手段,模拟在线课堂学生的注意力变化情景,借助眼动仪开展教学实验并收集
学位