基于特征选择与特征融合的蛋白质相互作用分类研究

来源 :济南大学 | 被引量 : 0次 | 上传用户:twesai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质间的相互作用(Protein-Protein Interactions,PPIs)参与了生物体内绝大部分生命活动,对蛋白质相互作用的预测研究是生物信息学领域中一个亟待解决的重要问题。高通量实验室技术的日臻成熟积累了大量的PPIs数据,但数据十分嘈杂且覆盖率很低。近几年,随着计算机技术日新月异的发展,计算方法开始在PPIs领域显现出其优势,基于蛋白质序列与机器学习的计算方法逐渐成为蛋白质相互作用领域的核心研究方法。完整蛋白质序列中包含几十个到几千个氨基酸不等,具有一定的复杂度,单一特征提取方法无法全面捕获完整蛋白质序列中的生物特征,特征融合可以很好地解决这个问题,通过融合包含多种生物信息的特征更全面地描述蛋白质之间的相互作用关系。融合特征中不可避免地存在一些冗余特征影响模型训练,通常采用特征选择在保证模型预测准确率的情况下筛选出最优的特征子集,使得模型表现出更出色的分类能力。如何基于蛋白质序列提取更具生物学意义的特征以及构建高性能的预测模型,是目前研究蛋白质间相互作用面临的重大问题。本文围绕蛋白质间的相互作用,主要研究了基于蛋白质序列的特征提取方法,通过特征选择与特征融合更全面地表示蛋白质序列的特征,构建了机器学习分类模型进行蛋白质间相互作用的预测。论文的主要工作总结如下:(1)提出了一种基于稀疏矩阵的蛋白质相互作用分类算法——ACT-Ada Boost。第一个阶段,对蛋白质序列进行数值特征表征。首先,根据蛋白质的物理化学性质构造每个蛋白质序列的简化序列,并对简化序列进行数值表征;然后,构造每个蛋白质序列的稀疏矩阵,采用行向量切分的方式对蛋白质序列进行二次特征表征,通过融合两种特征更全面地捕获氨基酸序列中的生物特征。第二个阶段,基于支持向量机、随机森林、人工神经网络、K最近邻算法、逻辑回归和Ada Boost构造了6种PPIs分类器,实验结果表明Ada Boost性能最佳,实现了相互作用和非相互作用蛋白质对的有效分类。(2)提出了一种基于相邻和不相邻区域以及抽象特征的提取与融合方法,构建了基于LGBM的蛋白质相互作用分类模型。首先,本文提出了基于区域划分的RCTD特征提取方法,根据子序列和六位二进制编码方式构造出62个相邻和不相邻的氨基酸区域,通过区域划分的方式获取蛋白质序列中相邻和不相邻区域氨基酸的关联信息,并采用基于方差分析的代价函数和粒子群优化算法的AVPSO方法进行特征选择,找到最优特征子集;接着,考虑到蛋白质序列中远距离氨基酸之间的关联信息,本文提出了基于词嵌入和LSTM的特征提取方法捕获氨基酸序列的上下文信息特征;然后,通过融合RCTD特征和LSTM深度特征全方位描述蛋白质间的相互作用关系。最后,以LGBM这一分类树模型作为预测工具对蛋白质序列进行有效的预测分析,对幽门螺旋杆菌和酿酒酵母两个物种的数据集都有十分优异的预测能力。实验结果显示,本文构建的基于RCTD_LSTM特征和LGBM的分类模型具有出色的PPIs分类预测能力。基于上述研究内容,本文开发了一个蛋白质相互作用预测系统,该系统实现了数据集加载、数据格式转换、蛋白质序列特征提取、模型训练、分类预测等功能,能够为研究人员提供相关学术支持。
其他文献
在过去的数十年里,随着计算机软硬件的飞速发展,计算机动画技术得到了蓬勃发展。人体运动是许多视觉计算相关任务或应用的关键,例如,运动捕获数据已经可以实现大规模地应用到电影制作、视频游戏开发等领域当中。目前,运动捕获技术已经成为三维人体动画制作技术的主流。有了运动捕获数据存储库,通常需要从存储库中检索相关的运动捕获数据,例如,可以检索运动捕获数据片段并将其重新用于动画制作。然而,随着运动捕获数据的普遍
学位
现实中的许多工程应用问题都涉及到建模数据中自变量与因变量的统计关系,但由于信息的缺失和误差引入的不确定性,传统的分类和回归模型面临着失效的问题,若想提取更可靠的信息就需要建模整个条件概率分布。条件密度估计是在给定条件下估计随机变量概率密度函数的一类任务。该任务中模型需要输出目标随机变量所有取值的概率密度,可以被认为是分类和回归任务的一般化推广。该技术使得量化与目标变量预测有关的不确定性成为可能,有
学位
蛋白质是构成人体细胞、组织的重要部分,是生命活动的主要承担者。膜蛋白是与细胞质膜或细胞器膜相结合的蛋白质,其在细胞增殖、分化、信号转导等活动中起着非常重要的作用,因此,针对膜蛋白类型进行精确分类成为一项重要课题。随着高通量生物实验方法积累了大量膜蛋白序列数据,研究人员利用膜蛋白序列信息训练分类模型,通过序列特征可以快速判断未知蛋白质类别。单一特征并不能全面表示蛋白质生物信息,而特征缺失将直接影响模
学位
实现户内配电设施的远程操作需要借助直流电机以及相关辅助触点,通过触点闭合回路控制电机正反转完成相应操作。不同方案的开关设备有各自的联锁逻辑需求,所以依据电力行业标准中提出的“五防联锁”要求正确设计是实现电动操作的重要环节。鉴于此,对五防联锁在10 k V、35 k V开关柜遥控操作中的应用进行了分析和探讨。
期刊
忆阻器的概念自首次被蔡绍棠教授将其作为第四种电路元件提出之后,在非易失存储、逻辑运算以及人工突触等领域都有很大的进展。对比于更早出现的一些存储器和CPU等存算分离的系统来说,忆阻器具备着小尺寸、易制备、低功耗、计算及存储的速度快等优异的性能,此外,忆阻器所具有的先进的存算一体的功能是目前信息社会用来打破存算分离的冯·诺伊曼体系最有力的技术。因此,在新兴的信息时代,发展和探究忆阻器的各种性能刻不容缓
学位
车载自组织网络(Vehicular Ad Hoc Network,VANET)作为智能交通系统中重要组成部分之一,可以支持行人、车辆、基础设施之间实时高效可靠的通信。VANET通过交换与安全类相关的消息告知其他车辆当前的交通状况和危险事故等信息,并为道路安全和交通管理等提供安全可靠的信息传输通信方案。媒体访问控制协议(Media Access Control,MAC)协议主要负责VANET信息传输
学位
涡轴发动机是结构复杂的热机,存在着火风险,若同时直升机上灭火系统丧失功能将导致火情不可控。为分析直升机上发动机不可控火情的发生概率和设计薄弱环节,本文开展了基于模型的安全性分析。通过模型驱动的安全性分析软件simfia进行建模并自动生成故障树,通过概率计算验证其发生概率符合适航规章要求。通过最小割集分析和重要度分析得出设计薄弱环节为发动机燃油进油接口、直升机灭火瓶和灭火管路。
期刊
聚类算法在数据挖掘中占有重要地位,并被广泛应用于医疗行业、金融行业、房地产行业等等,与我们的生活工作关联十分密切。在数据量较小维度较低的场景下,传统聚类算法能够表现出收敛速度快,结果精度高的优势。然而随着科学技术的发展,大数据时代中高维海量数据的出现,导致传统聚类算法计算量大大增加,难以取得较好的聚类效果。随着深度学习的发展,高度非线性转换的方式可以将数据处理成更有利于聚类的表示,于是与传统方法相
学位
时代在进步,技术在革新,我国整体社会形态随着经济的高速发展不断演变,在这种不断演变的背景下,现代企业所处的行业和形态也发生了天翻地覆的变化,国内外竞争日益剧烈。据2020年第七次人口普查数据来看,我国人口年龄结构发生很大变化,老龄化程度加剧,而劳动力供给总量占比下降的结构性变化也早在2012年就已开始。所以对于企业而言,无论经济环境和管理对象都呈现出了新的时代特征,大批量的新生代员工步入社会就业,
学位
为研究装配式移动平台的安全性,以某高速公路标段为背景,研究装配式移动平台体系。通过运用有限元计算软件Midas-Civil,建立移动平台模型,设置边界、荷载条件,分析了在自重、施工活荷载以及风荷载等荷载组合工况下,装配式移动平台的强度、刚度及稳定性,计算结果表明移动平台的安全系数满足规范要求,内力、变形以及整体稳定性均能较好地控制在安全范围内,配套的安全保障措施能使移动平台充分保证安全性,根据装配
期刊