基于GO语义相似性的蛋白质亚细胞定位预测研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yanhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组测序完成使得蛋白质序列信息呈指数级增长,大规模蛋白质序列涌入生物学数据库,过快的发展速度导致序列已知的蛋白质与功能已知的蛋白质之间的差距越来越大,这种失衡局面将严重制约蛋白质组研究以及新药物开发。蛋白质功能与蛋白质所属的亚细胞位置关系相当密切,蛋白质只有被运送到正确的亚细胞中,才能发挥其正常的功能,否则,就会给生物体内带来严重的后果。因此,蛋白质亚细胞定位信息有助于蛋白质功能预测,在蛋白质组学中蛋白质亚细胞定位的研究越来越重要。在传统生物学观点看来,基因、蛋白质及亚细胞这三者之间关系是一个基因对应一个蛋白质,一个蛋白质对应一个亚细胞位置,所以大部分蛋白质亚细胞定位预测方法建立在这种传统观点基础上。尽管对于这种单位点蛋白亚细胞定位预测已经取得一定效果,但是仅仅研究单位点蛋白并不能满足需求,因为多位点蛋白也需要被预测,并且可能多位点蛋白具有更加重要的意义,比如多位点蛋白更容易发生定位异常,更可能是引起疾病的原因。目前人们已经开始研究多位点蛋白亚细胞定位预测,但还处于起步阶段,尚不够完善。研究表明,越全面,越具有代表性的特征将越利于提高蛋白质亚细胞定位预测的准确率,而且大量研究人员通过上述方式提高了亚细胞定位的预测准确率。比如说同时考虑GO注释信息和氨基酸疏水信息获得不错的实验效果。理论上来讲,生物信息越全面,越有利于提高实验结果。所以,如何选择更加全面更加具有代表性的特征,是一个值得人们去探讨和研究的问题,这也正是本文的研究工作。如果一组基因拥有同一生物功能,而且该组基因属于同一种调控机制,那么其GO术语就相似。目前已有文献只是简单考虑GO是否出现,而没有考虑GO术语之间的相似性,我们称这种特征向量为传统GO特征向量。传统GO特征向量通过1和0来表示GO术语的有和无,而基于GO语义相似性的新GO特征向量将前者中的0值由新计算出来的值代替,而保持1值不变,因此新的GO特征向量是对传统GO特征向量的补充,是一种更加全面的特征代表。蛋白质亚细胞定位预测的主要步骤是特征提取与分类算法实现,本文主要研究蛋白质亚细胞定位中的特征提取方法以及分类算法的设计,主要工作如下。本文提出了一个新的蛋白质亚细胞位置预测方法,即GSS-mPloc,不仅考虑GO术语是否出现,还考虑了它们之间的关系。而这通过利用GO术语之间的语义相似性来实现。给定一个蛋白,通过搜索Gene Ontology数据库来获得GO术语集合,如果该蛋白被某个GO注释,那么该GO对应的属性值为1,否则为0,据此得到该蛋白的GO特征向量(6749维),其中每一维的值为0或1。然后利用GO术语之间的语义相似性来改进原始GO特征。具体改进如下,将某个未出现的GO与所有出现GO的语义相似性值平均后,平均值作为该未出现GO的新值。据此得到新的特征向量(6749维),其中每一维的值介于0与1之间。基于多标记多分类支持向量机分类算法ML-SVM被引入来对新的特征向量进行分类。在标准人类数据集上,蛋白质亚细胞位置预测的绝对正确率为71.8%,高出目前已有分类器3.6%。实验证明,GO语义相似性特征优于传统GO特征,而且基于SVM的分类算法优于基于KNN的分类算法。
其他文献
目的 近年来人们对研究CIN(宫颈上皮内瘤样病变)中细胞凋亡所扮演的角色很感兴趣,并认识到启动及调节凋亡的机制在决定何种CIN病变有可能进展为浸润癌时的重要价值。目前了
2015年8月1日,“十二五”国家863计划现代农业技术领域“活性蛋白制备关键技术研究与开发”课题中期检查会在山东省农业科学院农召开。课题组经过两年半的时间,以花生粕、大
为了满足人们对智能家居系统终端控制界面的个性化需求,结合M VC设计模式,提出了一种可支持用户界面定制的方法,并给出了智能家居系统的框架。通过该软件架构,可以实现个性化用户
前言 肺癌是世界上最常见的恶性肿瘤之一,其发病率和死亡率在许多国家居恶性肿瘤之首。由于目前肺癌的病因和发病机理尚不完全清楚,使得肺癌的治疗仍很棘手。目前肺癌的治疗已
风湿性心脏病,简称"风心病",是一种严重危害人们身体健康的常见病,约占心血管病人总数的40%左右。该病是由于风湿热侵犯心内膜后,引起心脏瓣膜发生肿胀,造成结疤变形,遗留永久
针对目前空气源热泵远程监控系统的单一结构模式已经不能满足监控实际需求的问题,设计了一种C/S和B/S相结合的监控系统结构。首先,根据实际需求对系统模型结构进行了分析,包
沼肥在厌氧发酵过程中,能够及时降解形成速效性养分和腐殖酸类等,减少氮、磷、钾的损失。腐殖酸能够促进微生物和酶系的活性,加快土壤团粒结构的形成,改善土壤水、肥、气、热状况
作为欧洲古典主义音乐作曲家——莫扎特,其《你们欢呼雀跃吧》K156(Exsultate Jubilate,k.l65,per soprano)中的第一首咏叹调与套曲同名。这首作品所属类型主要为经文歌曲,因此在莫扎特在宗教风格的展示中最早以该作品中而被众人所知,目前众多音乐会中会以该作品中的女高音为咏叹调进行运用。本文将从这首咏叹调《你们欢呼雀跃吧》的音乐分析入手,包括作品的曲式结构,歌词和旋律。其
无线通信和雷达系统中广泛采用了相控阵天线技术,近年来,超宽带阵列天线在通信与侦察中扮演着越来越重要的角色。紧耦合阵列作为一种新型的超宽带阵列天线,不同于传统的阵列
目的:食管部分切除食管胃吻合术后,由于切除了食管下括约肌、食管膈裂孔结构的破坏,术后常发生胃食管反流。研究表明不同位置食管胃吻合影响胃食管反流程度,但存在不同的结果。对