论文部分内容阅读
理解蛋白质间是否存在相互作用以及存在的相互作用所行使的功能,是理解生命活动的基础。利用蛋白质间的相互作用信息构建复杂的相互作用网络,建立蛋白质间的功能联系,能够为从整体上掌握生命的运行机制提供有益信息。虽然研究者通过生物实验方法确定了模式生物蛋白质间的一些相互作用,但是这样的研究进程较慢,对建立完整的蛋白质相互作用网络是远远不够的。随着数据挖掘技术的逐渐成熟,已有很多研究者将数据挖掘算法应用于生物信息学的蛋白质分析任务上,对蛋白质间相互作用进行预测,为实验指明了方向。现有处理蛋白质间相互作用的方法如聚类、贝叶斯等,大多算法简单,预测精度不高,并且难以处理高维稀疏的数据。而随着蛋白质组学研究的推进,如今的生物数据中已知蛋白质数量变得非常庞大,而他们之间的相互作用信息却大多未知,这样的数据网络即高维稀疏网络。在这样的数据上,基础的算法难以准确的预测,并且需要消耗大量的资源和时间。而隐特征分析由于只依赖于已知数据分析,能够很好的分析高维稀疏矩阵。本文首先介绍了基于奇异值分解的矩阵分解模型和在其基础上发展而来的一般隐特征模型,隐特征模型具有能处理高维稀疏矩阵的特点,但是一般隐特征模型有着不稳定,可能出现过拟合的问题,另外蛋白质相互作用网络为无向网络而非一般隐特征模型处理的二部图。因此,我们对其进行了多种优化和修改,提高隐特征模型的精度,并提出对称模型使其能分析无向图。本文的主要工作为:1)对隐特征模型进行深入的研究,在一般隐特征模型的基础上,通过非负乘法更新达成非负约束,通过在目标函数中加入正则化机制避免过拟合,加入频率加权等,以得到各种特型隐特征模型,提高了精度和效率。2)针对蛋白质相互作用数据为无向网络的特征,根据对称矩阵分解的理论,研究出了对称非负隐特征模型,并考虑加入线性偏差以提高精度,对得到的各隐特征模型进行对比实验分析,得到对称隐特征模型在蛋白质相互作用预测实验中有着更好的性能表现的结论。3)根据研究结果,用Java实现了一个蛋白质相互作用预测的图形展示系统。