基于加权特征融合的蛋白质相互作用预测研究

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:qjilearn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质参与了生命活动的各个过程,例如:细胞的新陈代谢、DNA的转录和复制、信号传导等。一般情况下,蛋白质通常与其他蛋白质相互作用,以复合物的形式执行它们的功能。研究蛋白质相互作用在临床研究中具有非常重要的现实意义,该研究能帮助我们理解人类疾病机制并为疾病治疗在新方法上提供依据。虽然蛋白质相互作用预测的实验技术已经逐渐成熟,也取得了可观的研究成果。但是,生物实验方法却耗费了大量的财力和时间,预测结果也容易受实验环境和操作过程的影响,产生一定的假阳性和假阴性。为了提高蛋白质相互作用预测准确率,发展可靠的计算方法具有十分重要的现实意义。使用计算方法进行蛋白质相互作用预测的首要工作是提取蛋白质的特征信息。蛋白质的特征主要包括氨基酸序列信息、结构信息、进化信息、结构域信息、亚细胞定位信息等等。蛋白质的序列信息最基本的也是最容易获得的,它的组成决定了蛋白质的结构信息,结构信息又决定了蛋白质的功能。目前,很多研究都是根据蛋白质的序列信息。然而,单类特征并不能全面反映蛋白质的功能,影响了蛋白质相互作用预测的准确性。本文希望通过融合多类蛋白质特征,尽可能全面的反映出相互作用蛋白质的相关性特征,提高预测蛋白质相互作用的准确度。计算方法预测蛋白质相互作用的另外两个重要阶段是特征选择和分类阶段。目前常用的特征选择的方法有主成分分析(Principal Component Analysis,PCA)、拉普拉斯特征映射(Laplacian Eigenmaps,LE)、线性判别分析(Linear Discriminant Analysis,LDA)、最大间隔准则(Maximum Margin Criterion,MMC)等。分类阶段比较常用的分类算法有随机森林(Random Forest,RF)、K近邻(K-Nearest Neighbour,KNN)、支持向量机(Support Vector Machine,SVM)等。面对如此多的特征选择和分类算法,如何组合它们才能得到较好的分类精度呢?本文使用特征加权的方法融合了序列氨基酸特征和进化信息特征,充分考虑了这两类特征的可分类性。选择MMC方法进行特征选择,使得两类样本间具有较大的类间散度与较小的类内散度。最后,使用SVM对蛋白质氨基酸进行分类预测。为了验证本文方案的有效性,对所提算法进行了大量的性能对比测试。特征选择方法选用PCA算法与MMC算法进行比较;又分别建立RF、KNN、SVM训练模型。为了验证融合特征对预测性能的有利影响,分别使用氨基酸特征和进化信息特征使用不同特征选择方法和分类方法进行实验和性能比较。预测结果显示将两类特征加权融合,能够更全面诠释蛋白质的基本性能;MMC算法要比PCA算法的分类结果可靠、准确率高;在三种分类器中,SVM分类器在蛋白质相互作用的分类问题中相对具有一定的优势。
其他文献
发展农业循环经济是农业实现可持续发展的重大课题。本文通过典型单位实地考察和调研,在对我市农业资源的利用和循环经济发展现状分析的基础上,提出了进一步推动我市农业循环
无论是文化交流还是思想交流,都离不开语言与思维。语言文字是文化之根,亦是翻译之基。翻译在本质上是一种思维活动。思维方式则是贯穿整个翻译过程的活的灵魂。中西方的思维
通过对相关古籍文献研究成果的总结,认为中医一贯重视临床疗效和评价,并根据症状的变化引申至病机、病位、证型、疾病等变化,指导下一步临床治疗。文章借助循证医学理论和相
钢铁工业作为国民经济的支柱产业,是国家建设和经济发展的重要支撑和保证。钢铁材料中的电工钢板作为一种被广泛应用于电力,电讯和军事国防工业的重要软磁合金,到目前为止已有一
针对捷联反射镜稳定平台处于跟踪状态时,机动目标及脱靶量时滞导致跟踪精度降低的问题,结合模糊控制及动态高型技术提出了一种改进的控制算法。传统动态高型控制方法在原有控
随着第三产业的兴起,我国餐饮业进入新的发展时期。上海作为我国第一大城市,其餐饮业消费能力不容小觑,对我国整体餐饮业发展具有不可忽视的影响。本文对上海餐饮业现状进行
基于电网快速发展和上海市电力公司检修公司跨区直流内外部管理压力下,本文提出了基于标准化的跨区直流输电精益管理办法,以制度为保障,从人、事、物三个层面进行标准化建设,
市场风险、信用风险、操作风险是银行业面临的三大风险,而操作风险已经日益成为全球银行业风险管理的重要领域。中国现代化支付系统是我国支付清算体系的核心,是各银行和货币
新《民事诉讼法》设立的小额诉讼制度在司法实践中的实施效果并不理想,存在适用率偏低和运行状况不佳的现象,当事人和法官对小额诉讼制度均表现出消极和谨慎的态度。小额诉讼
近年来,液位检测技术的应用越来越广泛,技术要求也越来越高,网络化已经成为水库、港口等液位检测的趋势。CAN总线作为一种有效支持分布式控制和实时控制的技术,以其稳定性好