基于机器学习的药物—靶标相互作用预测研究

来源 :中国矿业大学 | 被引量 : 4次 | 上传用户:sdszsh122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物靶标识别是现代新药研发的关键,它在药物毒副作用研究、老药新用以及个体化治疗中都起着十分重要的作用。然而,受到精度、通量和成本的制约,基于生物实验的传统药物靶标识别方法通常难以展开。与此同时,随着信息科学的迅猛发展,机器学习、模式识别、数据挖掘等智能计算技术在生物计算领域得到了广泛的应用。在这些技术的推动下,计算机辅助的药物-靶标相互作用预测方法作为一种快速而准确的药物靶标识别手段,受到越来越多研究者的重视。它能够利用计算机的模拟、运算和预测技术研究药物化合物分子与靶标蛋白质之间的关系,指导合成新的药物或修饰已知的药物结构,从而缩短新药研制时间,减少新药研制的盲目性并降低研发成本。因此,作为一种高效而低成本的方法,基于智能计算的药物-靶标相互作用预测对于靶标蛋白确认、靶向性药物开发以及药物-靶标相互作用网络构建都具有十分重要的意义。本文基于药物化合物分子指纹信息和蛋白质氨基酸序列信息,提出了一套药物化合物和蛋白质序列数值化表征、特征信息客观化抽取、药物-靶标相互作用集成化预测的方法体系,具体研究内容如下:1.对药物化合物和蛋白质序列信息数值化表征进行研究。药物化合物分子结构信息和蛋白质氨基酸序列信息通常以字符形式存储于数据库中,不适于计算机智能算法直接处理。如何有效数值化表示药物化合物分子结构信息和蛋白质氨基酸序列信息而不失其生物学属性,构建特征抽取算法能够处理的具有代表性的数值化表示方法,将会直接影响到药物-靶标相互作用预测的准确度及性能。因此,本文提出了一种基于分子指纹表示的药物化合物分子结构及基于矩阵低秩表示的蛋白质氨基酸序列数值化表征方法来定量描述药物-靶标数据内在的本质属性,为后续机器学习算法有效抽取特征信息提供保障。2.对药物-靶标数据特征客观化抽取进行研究。在预测药物-靶标相互作用时,确定训练、学习和分类所使用的特征是非常重要的环节。对于数值化表示的药物-靶标信息,如何高效客观地抽取出有代表性的特征并且尽可能的减少特征维度,对于提高预测的精度和速度有极大的帮助。因此,本文提出了一种基于机器学习的药物-靶标相互作用特征抽取算法来自动、客观地抽取具有最小化重构误差的高级抽象特征,从而得到药物-靶标数据最优的特征表示,为后续分类模型高精度预测药物-靶标相互作用提供保障。3.对药物靶标特征分类器模型进行研究。药物-靶标特征信息中存在大量高维数据,在分类预测时常常会引起维度灾难。一方面,高维数据的存在会增加计算的复杂度和处理数据的负担,给分类预测造成负面影响;另一方面,高维数据通常是稀疏的,蕴含大量冗余甚至是噪音信息,会导致错误的分类结果。因此,本文提出了一种基于权重选择的旋转森林分类器模型,它能够有效降低数据维度并去除数据中的冗余信息,从而提高分类模型的准确度和运算速度。4.对大规模药物-靶标相互作用预测模型进行研究。传统的药物-靶标相互作用预测模型通常仅使用一个特定的分类器和样本的单模特征进行分类。这种模型对于大规模、高冗余样本很难获得好的分类效果和计算速度。因此,本文提出了一种基于集成学习系统的药物-靶标相互作用预测模型,该模型使用一组基分类器分别对不同的特征数据进行学习,并使用特定集成策略将各分类器的预测结果进行整合,在保证准确率的前提下,能够大幅提高药物-靶标相互作用预测速度,从而达到更好的预测结果和泛化能力。
其他文献
《回延安》是一首能够彰显延安精神的诗作。若要充分感悟延安精神,需要深挖《记一辆纺车》的资源。
随着煤炭资源开采逐步向深部发展,所面临的地质环境也变的更为复杂,巷道围岩体往往表现出大变形、持续流变等特征。特别地,对于开挖后围岩内具有一定初始损伤的岩体,在长期荷
在对中职学生的问卷调查结果上看,学生最喜欢的是有幽默感的教师;最反感的是呆板、教条的教师.因此,中职教师应少几分呆板、教条,多几分风趣、幽默.
随着市场竞争的加剧,对于多品种生产经营的现代制造企业,如何进行产品结构决策,如何科学定价,产品结构如何影响企业的战略规划和利润目标,日益成为企业管理者和管理会计人员
写作是人们表达思想、活动和理解的一种形式,是人们打开心灵、表达内心世界的桥梁。在小学语文教学中,教师应积极引导学生丰富的联想和想象,引导学生表达真实情感,不说假话,
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
【正】 1975年4月初,湖南省桃源县大水田公社大池塘大队山竹湾生产队的桃水塘田墈中出土了一批东汉铜器。省博物馆派人进行了调查,并收藏了全部出土铜器。大池塘位于桃源、沅
为高效准确地计算堰塞湖溃坝洪水演进过程,采用基于GPU加速技术的二维水动力模型模拟了2018年金沙江"10·10"与"11·3"白格堰塞湖溃坝洪水演进过程,并将模拟流量过程
近日,工信部公布了2019年1-5月通信业经济运行情况报告。报告显示,电信业务收入增速继续放缓,移动用户增长数为负增长。虽然近两年,业界一直讨论通信行业进入下行趋势,但没人
统编教材及其使用是新时代基础教育课程与教学改革的必然趋势。为消解教师使用统编教材存在的“教教材”和“用教材教”之间的困惑,可以依据默会认识论中的规则视角来厘清理