论文部分内容阅读
蛋白质组学研究是后基因时代生物信息学中最重大的研究课题之一,蛋白质功能预测是蛋白质组学富有挑战性的问题之一。它的研究不仅可以直接阐明生命体在生理或病理条件下的变化机制,而且对生物制药、农业生物科技等应用领域同样具有直接的指导作用。本文在深入分析现有蛋白质功能预测方法的基础上,对蛋白质功能预测问题进行了深入研究,提出了两种新的蛋白质功能预测模型,并进行了相应的实验分析,取得了较好的结果。论文主要工作包括:(1)总结了现有蛋白质功能预测技术。本文从蛋白质序列、结构与相互作用入手,系统分析了蛋白质功能预测研究现状,归纳总结出了当前蛋白质功能预测所面临的挑战和困难,据此给出了本学位论文的研究内容。(2)提出并实现了基于相互作用的蛋白质功能预测模型。蛋白质是通过与其他蛋白质直接或间接的相互作用执行其功能的。据此本文提出了一种结合蛋白质相互作用与“小世界网络”特性的蛋白质功能预测新模型。该模型将蛋白质相互作用网络看成是一个小世界网络,利用小世界网络的相关特性提出新的预测算法,对蛋白质功能进行预测。该模型有效解决了蛋白质伙伴数目较小时预测准确率不高的问题,当伙伴蛋白质数目小于4时,预测准确率比相同条件下的GO模型提高了3~4个百分点。最终本文提出了结合SWN-BA方法与GO方法的综合模型。实验结果表明,综合模型能够有效应用于蛋白质功能预测研究。(3)提出并实现了基于分组重量编码的蛋白质功能预测模型。基于相互作用的蛋白质功能预测模型无法适用于无相互作用信息的蛋白质,因此我们提出了一种新的仅基于蛋白质序列信息的功能预测模型。蛋白质序列的分组重量编码方法,利用物理学中“粗粒化”的思想,结合了一定的氨基酸特性。该方法将蛋白质序列约化成一组向量,能从蛋白质序列中提取较多的功能信息。将分组重量编码与最近邻居算法相结合应用于蛋白质功能预测研究,实验结果表明该模型能较好的应用于无相互作用的蛋白质的功能预测。