蛋白质相互作用可信度评估中不同种类的特征信息研究

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:yxzapricot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量实验鉴定技术和计算预测方法正在为各种生物产生出大量的蛋白质相互作用(protein-protein interactions,PPI)数据。但大规模数据中的较高比例的假阳性阻碍了对其进行进一步的生物学洞察。解决这个问题的途径之一是整合已有知识和多种数据资源计算评估PPI可信度。这项工作的关键是特征选择与提取、算法设计与实现。本文对PPI可信度评估中不同种类的特征信息进行了量化分析和比较研究。第一部分,采用统计学方法研究酵母(yeast)蛋白质相互作用与基因表达谱和亚细胞定位的相关性。构建了4个PPI样本集,包括正集、负集、随机组对负集和混合集。对于四个数据集中的所有蛋白质对,比较了它们的基于距离的基因共表达的分布;比较了它们中具有已知亚细胞定位的蛋白质对的共定位出现率。结果表明,与非相互作用蛋白质对相比,相互作用蛋白质对的基因表达谱具有较高的相似性、相互作用蛋白质对更倾向于具有相同的亚细胞定位。第二部分,基于多种数据资源和最小二乘支持向量机(LS-SVM)分类器,提出了一个评估酵母PPI可信度的计算系统。这些数据资源涉及6种数据类型,它们是蛋白质氨基酸序列、结构域相互作用、蛋白质功能注释、基因表达谱、亚细胞定位和伪氨基酸组成。设计了数据的预处理和特征属性计算方案,并在MATLAB环境下编程实现。为样本集中8 400个蛋白质对产生出了各自的125维属性编码。联合不同种类的特征,训练与测试LS-SVM,生成评估模型。3轮交叉验证结果表明,分类准确率可达76.37%。进一步地,比较与分析了直接与间接特征、单个与联合特征的分类准确率;并揭示出这些高通量数据间隐含的内在关系。这项探索实现了多种高通量数据的交叉量化分析和在不同种类特征的共有关系的基础上推断未知知识。在一定程度上整合了不同来源的生物学数据,能够为研究细胞生命机制提供更广泛、深入的信息,并为其它众多数据尚不完全的物种的相关研究提供参考。
其他文献
功能性磁共振(fMRI)已经成为脑科学研究的重要手段和工具。它具有其无损性、高速性、高分辨率、可同时获得结构与功能图像等一系列优秀性能,被广泛应用于脑的实验及临床研究。
氧化沟系统是活性污泥工艺的一种实现方式。对氧化沟系统水质参数相关性的正确模拟是实现水质参数在线实时控制的重要课题。人工神经网络具有自组织、自适应、容错性、并行性
随着Intemet的普及和电子商务的发展,推荐技术已逐渐成为信息检索平和信息过滤领域的研究热点。现有的推荐系统一定程度上满足了人们获取信息的需求,但在许多应用中,仅仅考虑
功耗感知数据库管理系统是绿色计算中的一个研究热点。连接操作是直接影响数据库系统整体性能、功率的一类核心操作,针对连接操作的功率控制成为当今数据中心面临的关键问题。
在软件开发中,确保软件质量是一项既消耗资源又费时的过程:包括手工代码审查,技术评审会议和密集的软件测试等活动。软件缺陷预测是软件工程中的一个重要的研究课题,它可以帮助我
随着社会经济的发展,电机已成为广泛应用于国民经济中各行各业的重要动力设备。电机的安全运转对于这些企业的安全生产、经济效益提高有着至关重要的作用。其中,电枢作为电机的
SAT是理论计算机科学中的一个经典问题,也是被发现的第一个NP完全问题。SAT问题是对于给定的一个布尔逻辑表达式在SAT问题可满足的情况下给出一组解,使得该布尔逻辑表达式为
随着信息技术的迅速发展,信息技术已经被应用到社会的各个领域,计算机网络及信息系统在政府机构、企业和科研机构等各种组织中日益普及并发挥着越来越重要的作用。信息化程度
全球的数字化浪潮,带来了海量的数据,在企业经营中也有大量有价值的数据产生,这些数据对企业的生存与发展至关重要,而且企业这些数据会以几何速率增长。因此业界对开放式的网
随着我国经济迅速发展,人民物质生活水平大幅度提高,拥有车辆的家庭也越来越多,使得校园内的车辆数量与日俱增。与此同时,社会上的外来车辆数量众多,在校园随意行驶停放,给校园交通