论文部分内容阅读
药物靶标识别是现代新药研发的关键,它在药物毒副作用研究、老药新用以及个体化治疗中都起着十分重要的作用。然而,受到精度、通量和成本的制约,基于生物实验的传统药物靶标识别方法通常难以展开。与此同时,随着信息科学的迅猛发展,机器学习、模式识别、数据挖掘等智能计算技术在生物计算领域得到了广泛的应用。在这些技术的推动下,计算机辅助的药物-靶标相互作用预测方法作为一种快速而准确的药物靶标识别手段,受到越来越多研究者的重视。它能够利用计算机的模拟、运算和预测技术研究药物化合物分子与靶标蛋白质之间的关系,指导合成新的药物或修饰已知的药物结构,从而缩短新药研制时间,减少新药研制的盲目性并降低研发成本。因此,作为一种高效而低成本的方法,基于智能计算的药物-靶标相互作用预测对于靶标蛋白确认、靶向性药物开发以及药物-靶标相互作用网络构建都具有十分重要的意义。本文基于药物化合物分子指纹信息和蛋白质氨基酸序列信息,提出了一套药物化合物和蛋白质序列数值化表征、特征信息客观化抽取、药物-靶标相互作用集成化预测的方法体系,具体研究内容如下:1.对药物化合物和蛋白质序列信息数值化表征进行研究。药物化合物分子结构信息和蛋白质氨基酸序列信息通常以字符形式存储于数据库中,不适于计算机智能算法直接处理。如何有效数值化表示药物化合物分子结构信息和蛋白质氨基酸序列信息而不失其生物学属性,构建特征抽取算法能够处理的具有代表性的数值化表示方法,将会直接影响到药物-靶标相互作用预测的准确度及性能。因此,本文提出了一种基于分子指纹表示的药物化合物分子结构及基于矩阵低秩表示的蛋白质氨基酸序列数值化表征方法来定量描述药物-靶标数据内在的本质属性,为后续机器学习算法有效抽取特征信息提供保障。2.对药物-靶标数据特征客观化抽取进行研究。在预测药物-靶标相互作用时,确定训练、学习和分类所使用的特征是非常重要的环节。对于数值化表示的药物-靶标信息,如何高效客观地抽取出有代表性的特征并且尽可能的减少特征维度,对于提高预测的精度和速度有极大的帮助。因此,本文提出了一种基于机器学习的药物-靶标相互作用特征抽取算法来自动、客观地抽取具有最小化重构误差的高级抽象特征,从而得到药物-靶标数据最优的特征表示,为后续分类模型高精度预测药物-靶标相互作用提供保障。3.对药物靶标特征分类器模型进行研究。药物-靶标特征信息中存在大量高维数据,在分类预测时常常会引起维度灾难。一方面,高维数据的存在会增加计算的复杂度和处理数据的负担,给分类预测造成负面影响;另一方面,高维数据通常是稀疏的,蕴含大量冗余甚至是噪音信息,会导致错误的分类结果。因此,本文提出了一种基于权重选择的旋转森林分类器模型,它能够有效降低数据维度并去除数据中的冗余信息,从而提高分类模型的准确度和运算速度。4.对大规模药物-靶标相互作用预测模型进行研究。传统的药物-靶标相互作用预测模型通常仅使用一个特定的分类器和样本的单模特征进行分类。这种模型对于大规模、高冗余样本很难获得好的分类效果和计算速度。因此,本文提出了一种基于集成学习系统的药物-靶标相互作用预测模型,该模型使用一组基分类器分别对不同的特征数据进行学习,并使用特定集成策略将各分类器的预测结果进行整合,在保证准确率的前提下,能够大幅提高药物-靶标相互作用预测速度,从而达到更好的预测结果和泛化能力。