论文部分内容阅读
高通量实验鉴定技术和计算预测方法正在为各种生物产生出大量的蛋白质相互作用(protein-protein interactions,PPI)数据。但大规模数据中的较高比例的假阳性阻碍了对其进行进一步的生物学洞察。解决这个问题的途径之一是整合已有知识和多种数据资源计算评估PPI可信度。这项工作的关键是特征选择与提取、算法设计与实现。本文对PPI可信度评估中不同种类的特征信息进行了量化分析和比较研究。第一部分,采用统计学方法研究酵母(yeast)蛋白质相互作用与基因表达谱和亚细胞定位的相关性。构建了4个PPI样本集,包括正集、负集、随机组对负集和混合集。对于四个数据集中的所有蛋白质对,比较了它们的基于距离的基因共表达的分布;比较了它们中具有已知亚细胞定位的蛋白质对的共定位出现率。结果表明,与非相互作用蛋白质对相比,相互作用蛋白质对的基因表达谱具有较高的相似性、相互作用蛋白质对更倾向于具有相同的亚细胞定位。第二部分,基于多种数据资源和最小二乘支持向量机(LS-SVM)分类器,提出了一个评估酵母PPI可信度的计算系统。这些数据资源涉及6种数据类型,它们是蛋白质氨基酸序列、结构域相互作用、蛋白质功能注释、基因表达谱、亚细胞定位和伪氨基酸组成。设计了数据的预处理和特征属性计算方案,并在MATLAB环境下编程实现。为样本集中8 400个蛋白质对产生出了各自的125维属性编码。联合不同种类的特征,训练与测试LS-SVM,生成评估模型。3轮交叉验证结果表明,分类准确率可达76.37%。进一步地,比较与分析了直接与间接特征、单个与联合特征的分类准确率;并揭示出这些高通量数据间隐含的内在关系。这项探索实现了多种高通量数据的交叉量化分析和在不同种类特征的共有关系的基础上推断未知知识。在一定程度上整合了不同来源的生物学数据,能够为研究细胞生命机制提供更广泛、深入的信息,并为其它众多数据尚不完全的物种的相关研究提供参考。