论文部分内容阅读
20世纪后期,人类和其他生物物种基因组学的研究飞速发展,生物信息的增长惊人,生物科学技术极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具,运用新的技术手段对复杂的海量生物信息进行储存、管理、分析和研究,组织这些数据,以利于储存、加工和进一步利用,有效管理、准确解读、充分使用这些信息。
本文的工作就是应用机器学习方法来对生物信息数据进行分析,处理。本文的主体工作分为三个部分:
1.用集成学习算法研究蛋白质亚细胞定位预测。蛋白质的亚细胞位置,是蛋白质的一个重要性质,能够表明蛋白质在细胞中的功能。预报蛋白质亚细胞位置,在基因注释和药物设计工作中,都扮演了很重要的角色。本文用基于序列氨基酸组成成分进行蛋白质序列特征编码,选用了AdaBoost与Bagging这两种最重要的集成学习算法来对训练数据集进行建模。在建模过程中,分别尝试了用4种不同的弱分类器来训练样本,并用基于交叉验证法的建模结果来对建模参数进行优化。结果表明:用AdaBoost随机森林算法作为弱分类器时有最好的建模结果,交叉验证预报正确率为76.51%;Bagging用最近邻算法作为弱分类器时有最好的建模结果74.21%。用独立测试样本集对训练好的预报模型进行验证,AdaBoost与Bagging的最大预报正确率分别为80.75%和80.90%,优于SVM方法所得结果(SVM的训练模型交叉验证预报正确率为76.46%,独立测试样本集预报正确率为76.98%)。
2.用支持向量机回归算法(SVR)对1-苯基-2氢-四氢三嗪-3-酮同系物进行QSAR研究。1-苯基-2氢-四氢三嗪-3-酮同系物可用作5-脂抗氧化酶抑制剂。本工作中用来自文献的12个拓扑指数与Hyperchem计算得到的17个物理化学参数作为初始分子描述符,然后用基于SVR留一交叉验证法进行变量筛选,最终得到8个分子描述符用于建立预报模型。该模型的留一交叉验证法的RMSE(最小残差平方和)为0.2834,作为对比,多元线性回归算法(MIR)、偏最小二乘法(PLS)、人工神经网络(ANN)的RMSE分别为0.4301、0.4379、0.4039;SVM与MLR、PLS、ANN的独立测试集验证结果的RMSE分别为0.2834、0.3316、0.3470和0.3581。
3.提出了一种基于MVC架构的服务器设计途径,建立了基于已得模型的在线预报服务器。建立生物信息学预报模型的目的是为了提供对生物信息中的未知对象进行预报的工具,使得预测结果能够为他人所用。为了更好的达到这个目的,将研究得到的预报模型提供给所有相关领域的研究人员,建立在线预报服务器是一条有效途径。