基于不平衡学习的蛋白质—维生素绑定位点预测研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:yanjie99826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维生素是许多酶反应中的重要辅酶因子,是人体代谢活动中必不可少的有机化合物。酶是具有生物催化功能的生物大分子,主要由蛋白质组成,对于生物化学变化起催化作用。在健康的人体内,维生素通过与酶分子在合适的绑定位点进行绑定,参与到人体的生化反应中。但对于病人而言,维生素与酶的位点绑定活动不能正常的进行。这些酶便成了许多疾病的药物靶点,因此研究蛋白质与维生素的绑定位点预测问题对于生物制药等相关行业具有非常重要的意义。但是传统的实验室测定方式存在实验工作量大、周期长、代价高等缺点,传统的实验室测定的方式已不能满足当下行业发展的迫切需求,利用智能计算方法来预测维生素作用位点能够提高实验效率,因此当前这类研究具有相当重要的意义。本文主要研究蛋白质与维生素绑定位点预测问题,由于绑定位点与非绑定位点之间数量上相差很大,使得该问题成为一个不平衡学习问题。结合不平衡学习问题的特性以及蛋白质与维生素绑定位点预测的特殊性,本文提出了一种基于K-means算法的改进的下采样方法,称之为MUS方法,本文将该方法与AdaBoost集成技术结合在一起建立了一个蛋白质与维生素绑定位点预测的模型,称作MUS_Vita_AdaBoost。由于不同种类的维生素与蛋白质作用的差异性,本文对维生素A、维生素B、维生素B6以及不区分类别的维生素集合分别进行实验,实验中我们将蛋白质的LogisticPSSM特征和PSS特征组合在一起,在实验中MUS Vita AdaBoost模型取得了较为理想的效果。同时,在与其他相关模型相比较时,本文提出的模型泛化性能更好。
其他文献
随着我国电力工业的快速发展,我国已进入一个“大电网”时代,电网的规模不断扩大,全国互联电网也早已建成,然而由于电网结构薄弱、电气设备和线路故障率较高等因素导致大停电事故时常发生;并且随着风电、光伏、直流等新技术的发展,电源、负荷特性均发生巨大变化,使得电网运行特性的不确定性和复杂程度也不断加剧,加大了电力系统特性认知、运行调度和事故防御的难度,因此及时有效地对大电网的安全态势进行感知变得越来越重要
城镇化系统很大程度上与人类自身的生命系统相似,人类是万物之灵,是最高等级的生命体,可以不断地繁衍后代,还能够通过科技的发展增加对自身生命系统的认知,但是,人类亦会无奈
从系统科学角度看,在一定条件下,组成系统内的任两个部分都可以看成是集对的例子。集对分析中的联系数用数字系统的形式刻画出了对象系统各个侧面间的联系,因为联系数中各个联系
符合时代发展的理念是推动治理实践的精神动力;能力是推动治理实践的重要保障。作为中国特色社会主义国家制度的制定、实施和遵守的治理主体,其自身治理理念觉悟的高低直接关系到国家治理现代化建设的成败,关系到国家的前途。随着我国以实现国家治理现代化为目标全面深化改革的不断深入,改革正处于攻坚期和深水区,对治理主体的能力提出了更高的要求。治理主体需要从思想与行动上紧跟改革的步伐,积极探索新的治理方式,在当前培
川木香属是青藏高原及其邻近地区的一个特有属。该属多种植物具有非常重要的药用价值。然而,川木香属植物种间分类和物种间的亲缘关系依然不明确,运用传统的形态学方法很难实
近几年来,受国内经济放缓和正在进行供给测结构性改革的影响,我国起重机械行业整体出现竞争激烈程度加剧、营业收入增加缓慢、利润率下降等现象,而且市场越来越细分化。在此背景下作为国内起重机械行业领军企业,W公司急需解决如何结合自身优势对市场进行清晰定位的问题,以及如何根据目前实际情况调整营销策略的问题,具体为:品牌延伸化问题、如何改善与各方面关系、如何进一步开拓垃圾吊市场和海外市场的问题。本文以W公司为
胰岛?细胞表现出周期性簇放电活动,反应这种现象的Sherman-Rinzel-Keizer模型由三个一阶非线性微分方程构成,其分别代表了膜电压,电压门控钾通道的激活参数,以及细胞内钙的浓
1963年美国气象学家Lorenz在研究大气对流的问题中首次发现了混沌吸引子Lorenz系统作为混沌研究的先例,在非线性科学的研究史上占据着重要的地位.混沌不仅普遍存在于自然界中
随机流网络模型是一种多状态离散概率模型,常用来建模计算机网络、交通运输网、通信网等。网络可靠度是评估随机流网络性能的一项重要指标。由于随机流网络的多状态特性,随着
从数学的角度来分析,S盒是一个多输出布尔函数,即为GF(2)n到GF(2)m的一个映射。由于S盒通常作为分组密码算法中仅有的非线性结构,所以整个加密算法的安全性都集中体现在S盒的