蛋白质亚细胞定位的机器学习方法及其应用研究

来源 :青岛科技大学 | 被引量 : 10次 | 上传用户:jinghong_22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组研究的开展是生命科学研究进入后基因组时代的里程碑,也是继基因组研究之后的又一“大数据科学”。蛋白质亚细胞定位预测研究是蛋白质组学的重要内容同时也是生物信息学的热点问题。研究单位点和多位点的蛋白质亚细胞位点信息对研究某些疾病的发病机理、药物设计和发现具有重要意义。围绕蛋白质亚细胞定位的机器学习方法及其应用研究这一主题,本文主要工作如下:1.提出基于PsePSSM-DCCA-LFDA方法的凋亡蛋白质亚细胞定位预测。首先融合伪位置特异性得分矩阵(PsePSSM)和去趋势互相关分析(DCCA coefficient)对蛋白质序列进行特征提取,然后对提取后的特征信息使用局部Fisher判别分析(LFDA)进行降维,最后,将降维后的特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,在对于蛋白亚细胞定位预测的研究中,我们的方法在现有的方法中发挥补充作用。2.提出基于PseAAC-PsePSSM-WD方法的凋亡蛋白质亚细胞定位预测。首先融合伪氨基酸组成(PseAAC)和伪位置特异性得分矩阵(PsePSSM)对蛋白质序列进行特征提取,然后对提取后的特征信息进行二维小波降噪,最后,将降噪后的最佳特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,本文提出的方法能够显著提高凋亡蛋白质亚细胞定位的预测精度,而且有望用于蛋白质其它属性的预测。3.提出基于DMLDA-LocLIFT方法的多标记蛋白质亚细胞定位预测。首先分别利用伪氨基酸组成、伪位置特异性得分矩阵、分组重量编码、二肽组成和GO信息对蛋白质序列进行特征提取,并将五种算法融合。然后对融合的特征信息进行直接多标记线性判别分析(DMLDA)降维。最后,将降维后的最佳特征向量输入到标记特征的多标记学习算法(LIFT)分类器中预测多位点蛋白亚细胞的位置。通过jackknife检验,与其它预测方法进行比较,对革兰氏阴性菌、革兰氏阳性菌和植物数据集上的预测准确率达到目前最高的预测精度。结果表明,本文提出的DMLDA-LocLIFT模型能够有效的预测多位点蛋白质亚细胞定位。
其他文献
为缓解湿地保护与湿地生态旅游发展之间的矛盾,提出了利用人工复合湿地再现湿地景观风貌的方法,进行天然湿地保护和退化湿地恢复,并以一案例对该方法的应用进行了阐述。
《普通高中音乐课程标准》强调高中音乐教育必须以音乐审美体验为核心,力求学习内容的生动有趣、丰富多彩,以体现鲜明的时代感和民族性,并积极引导学生主动参与音乐实践,为学
目的:探究左炔诺孕酮宫内缓释系统(LNG-IUS)以及优思明(屈螺酮炔雌醇片)治疗子宫内膜异位性疾病的效果。方法:回顾分析2016年8月-2017年10月本院住院以及门诊就诊患者中通过B超或
为探讨叶绿素对控释肥的响应机制,从而为控释肥在果树上的应用提供理论依据。采用苹果专用控释肥和普通复合肥为试材,设计不同控释肥养分含量处理的方法,研究了控释肥对苹果
绿化工程施工质量控制覆盖施工的全过程,其中施工质量验收是工程质量控制的一个重要环节,同时又是控制工程质量的重要手段,通过对绿化工程竣工验收的依据、要求、标准和程序的阐
目的探讨糖尿病患者心理健康状况的影响因素。方法对山西省4个地区8个调查点的2132名城乡居民,其中包括139名糖尿病患者,进行问卷调查,了解其一般情况以及情绪状况、社会支持
<正>语文课外作业是语文教学中的一个重要环节。《学记》中主张"时教必有正业,退息必有居学","居学"即指课外作业。有效的语文课外作业既可以检验学生的知识建构和运用状况,
会议
苏州地铁为B型地铁,在运营5年或60万km左右,对其展开了深度架修工作,且在首列车架修时对橡胶件进行性能测试,确定橡胶件在架修时的维修策略,车辆在架修后经功能调试、正线套
中国区域经济结构面临着两大问题 ,即区域产业结构的趋同性和区域之间发展差距的不断扩大 ,这严重地制约了中国整体经济的进一步发展。中国区域协调发展战略的提出是中国区域
<正>海关税收制度是国家经济制度的重要组成部分。海关税收不仅是国家实行宏观调控的经济杠杆,而且也是国家财政的重要来源。完善海关税收征管,提高税收征管质量,确保海关税