用生物统计方法预测蛋白质相互作用

来源 :同济大学 | 被引量 : 5次 | 上传用户:alikeboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要物质承担者,一切生命活动都离不开蛋白质的参与。预测蛋白质的功能和作用机理已经成为当今生命科学界非常热门的课题。许多蛋白质通过与其他蛋白质的相互作用来表达它们的生物学功能,而且蛋白质之间的相互作用在细胞生物学水平上起着十分关键的作用:首先,遗传上的相互功能常常与相应的蛋白质间相互作用有关;其次,在信号传递途径中也需要蛋白质的相互作用;再次,蛋白酶-蛋白质底物间的相互作用与生物的催化反应密切相关;最后,蛋白质的相互作用对于整合如RNA多聚酶或对多成分酶促反应也有至关重要的影响。因此研究蛋白质的相互作用,识别与特定蛋白质相互作用的蛋白质,对于了解蛋白质的功能有着非常重要的意义。 本文首先从DIP数据库中下载得到蛋白质相互作用的数据,并从中筛选出实验所需的正集数据,再结合MIPS数据库中提供的亚细胞定位的分类信息构建负集。我们基于蛋白质的一级结构信息,先采用文献中的CTD编码方法对蛋白质序列进行编码,提取出序列中蕴含的统计特征,用支持向量机(SVM)算法进行建模和预报,平均准确率为79%以上,再采用不同的策略进行变量选择,优化编码后用5-fold交叉验证进行检验,准确率达到了82.43%,比文献的交叉验证结果(76.9%)高出了5%以上。接着,本文采用了另外四种编码方法,从不同的角度对序列进行编码,提取变量,再结合SVM进行预报,结果都比文献值要好。其中预报结果最好的氨基酸双编码的5-fold交叉验证的准确率达到了85.91%,高出了文献值9个百分点。值得一提的是,在另外的这四种编码方法中,氨基酸单编码、氨基酸双编码和伪氨基酸编码以前只用在其他的生物识别问题上。Gauss函数分布编码方法是我们提出的新型编码方法,这种编码方法合理的利用了更多有效信息,预报的效果与氨基酸双编码的结果相近,准确率也达到了85%以上。最后,本文将共识模型引入蛋白质相互作用的预测,选取不同的编码方法建立多个成员子模型,再构建双层结构的SVM融合网络,充分发挥不同编码思想的优点,利用不同模型之间的优势互补关系,从而进一步提高了预测性能,准确率最高达到了86.80%,这是目前据我们所知国际上达到的最佳分类效果。 本文主要分为四个部分:
其他文献
<正>0引言交联聚乙烯绝缘电缆具有优良的电气性能和机械性能、结构简单、重量轻、耐热好、负载能力强、不易熔化、耐化学腐蚀、机械强度高、生产工艺简单、安装敷设及维护保
随着网络技术的不断发展和网民人数的不断扩增,网络语言逐渐走进大众视野,宽松隐秘的网络环境使语言使用者常常故意偏离语言常规,创造性地使用一些语言。因此,在语音、词汇、
目的观察吸入布地奈德后,用2%碳酸氢钠涂口腔预防鹅口疮的效果。方法将198例喘息性肺炎患儿随机分为实验组106例和对照组92例,对照组在激素吸入后喂奶或喂水,实验组在对照组
<正> 柬埔寨首都金边位于四臂湾西岸。四臂湾是上湄公河、下湄公河、洞里萨河和巴沙河汇合处,这四条河流在这里汇聚成一片宽广的水面,又像四支巨大的手臂伸向远方。柬埔寨人
期刊
本报讯 近日,省政府办公厅出台《关于整合社会联动服务资源推动非警务求助事项分流工作的意见》,明确110报警服务平台对非警务类报警电话,主动对接12345热线等社会求助服务平台
报纸
永磁同步电机传统DTC(Direct Torque Control)技术利用转矩、磁链的滞环比较结果,通过查表选择电压矢量的方式对转矩进行直接控制,虽然其算法简单,但其电流波形畸变、转矩脉
股指期货和ETF基金是我国资本市场现有交易品种,投资者分别通过股指期货或ETF可进行套利交易。股指期货的特点是高杠杆性;ETF的特点是价值稳定﹑流动性高。本文通过对上证50ETF
<正> 从麻风杆菌(ML)可获取大量、具有不同生化成分的抗原,它们能被麻风病人的抗体识别,并能抑制人的T淋巴细胞功能。SDS-PAGE和Western blot法加用麻风病人血清抗体识别ML蛋
2014年在天水市秦州区研究了向日葵在不同覆膜方式条件下的增产增收效果。结果表明,以全膜双垄沟播处理效果最好,其籽粒平均产量达到4 223.06 kg/hm2,比露地平播增产1 223.36
<正> 在今天的标准抗银屑病治疗中没有人反对使用包括皮质类固醇、维生素D3、蒽林、焦油类、UVB光疗、光化学疗法、维甲酸类、细胞抑制剂和(或)免疫抑制剂如甲氨喋呤。这些方法