基于2D结构图像的小分子活性/功能预测与平台构建

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gzhaohuo892
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着分子结构与活性/功能数据库规模呈几何级快速增长,传统机器学习算法对海量数据处理的局限性已经日趋显露。与此同时,深度学习(Deep Learning,DL)以其强大的数据处理与学习能力,已经在文本与语音识别、图像处理,人脸识别等众多领域取得了巨大成功,并逐渐应用于生物/化学信息学、计算生物学、药物设计学等研究领域。为此,论文以深度学习算法中最具代表性的卷积神经网络(Convolutional Neural Network,CNN)为主要研究方法,充分利用CNN特征自动提取与传统偏最小二乘(Partial Least Squares,PLS)机器学习算法的优势,探索性的开展了基于小分子2D结构图像的活性/功能分类与预测研究,并取得了较为满意的研究结果。主要研究内容与结果:1)以小分子2D结构图像为模型输入信息,分别对8488个样本的PGC/ERR拮抗活性、46808个样本的Pre-miRNAs抑制活性、8348个样本的Ames诱变活性、18143个样本的Rab9启动子激活活性以及5416个样本的NIH/3T3细胞毒性进行了CNN建模与分类预测研究。对以上5个体系的生物活性/毒性/功能预测研究表明,CNN可有效提取与分子活性/毒性/功能相关的2D结构特征,并取得了较为满意的分类预测结果,所建CNN模型的预测准确性(Accuracy,Acc)、灵敏度(Sensitivity,Sen)和特异性(Specificity,Spe)分别为0.954,0.916,0.990;0.844,0.766,0.990;0.938,0.968,0.899;0.871,0.887,0.854;0.873,0.871,0.874;外部测试集的Acc,Sen和Spe分别为0.899,0.856,0.937;0.825,0.691,0.959;0.911,0.953,0.690;0.798,0.821,0.776;0.775,0.743,0.818。2)将CNN特征自动提取与传统机器学习算法偏最小二乘(Partial Least Squares,PLS)的可视化与解释性强的技术优势相结合,对小分子的PGC/ERR拮抗活性和Pre-miRNAs抑制活性开展了CNN-PLS建模研究,即以CNN提取得到的分子图像高级特征作为分子结构描述符,经逐步回归特征变量筛选后,进行传统的PLS分类预测研究。研究结果表明:对于小分子的PGC/ERR拮抗活性和Pre-miRNAs抑制活性两个研究体系,CNN-PLS模型取得了与CNN模型相当的预测结果,其模型的Acc,Sen和Spe分别为0.926,0.871,0.977;0.847,0.721,0.972;外部预测的Acc,Sen和Spe分别为0.908,0.846,0.964;0.813,0.682,0.944。由此可以推论:去除大量冗余结构信息后,所建CNN-PLS模型具有模型复杂度低和解释性强等特点。3)初步构建了基于MATLAB的CNN和CNN-PLS建模/预测的图形用户接口(Graphical User Interface,GUI)。该GUI可实现分子2D结构图像和活性/功能数据的标准化预处理、CNN建模、逐步回归特征筛选、PLS建模、模型验证、结果与分析等主要功能模块,尤其适用于非专业用户的CNN和CNN-PLS建模研究。总的来说,论文采用CNN和CNN-PLS两种研究策略,探索性地将CNN在图像识别中的技术优势应用于小分子活性/毒性/功能的分类预测研究中,并取得了较为满意的分类预测结果。论文研究结果对于推动深度学习在生物/化学信息学以及药物设计等领域的深入应用具有重要参考价值。
其他文献
水体富营养化是日益严重的全球性环境问题,严重影响着人们的生产生活。而控制水体富营养化的关键是找到其限制因子,通过对限制因子的精准调控才能实现对富营养化的有效治理。目前普遍认为,氮、磷营养盐的过量输入是造成水体富营养化的根本原因,且多项研究表明,受当地自然环境的影响,富营养化现象具有时间差异性和空间差异性,不同地区、不同时间要分别探究。受三峡大坝调控的影响,三峡库区水动力条件复杂,对支流水体富营养化
近年来,镁合金因其具有密度小、比强度高、阻尼性能好等优点受到了国内外的广泛关注,有望成为替代钢铁、铝合金等材料的新型金属结构材料。挤压是镁合金最常见且最具优势的塑性变形工艺之一,由于合金在挤压过程中受三向压应力作用,可改善合金的变形能力,所以特别适合镁合金成形。因此,在常规挤压工艺的基础上,探索新型挤压工艺进行镁合金复杂件的成形或进一步改善镁合金组织性能具有重要意义。本课题首先利用DEFORM有限
锚固技术经过一百多年来不间断的研究与推广,运用领域也变得更加广泛,其技术也日渐完善。但仍旧面临工程建设规模不断扩大,难度不断提升,长期服役过程中多种不利因素侵扰等各种问题。无论是预应力锚索的整体支护能力,还是锚索的各个构件能否发挥其作用,都会受到内部锚固力的影响。因此对预应力锚索锚固力的检测是安全生产中重要的一环。本文主要基于结构动力学、结构的非线性振动特性,研究了预应力锚索的横向振动特性,对信号
钢板剪力墙是一种适用于高层建筑的优秀抗侧力构件,由内嵌薄钢板、竖向边缘构件与水平边缘构件组成,具有承载力高、侧向刚度大、延性好以及耗能能力强的特点。然而,钢板剪力墙结构基于性能的抗震设计存在效率低下、分析方法复杂的问题,尤其在设计高层结构以及需要实现多个性能目标时,问题显得尤为突出,这就给钢板剪力墙在实际工程中运用带来了严重的阻碍。现有的基于性能的抗震设计方法中,抗震性能目标虽然得到了细化,但仍是
压电加速度传感器在工程领域应用非常广泛,其输出电荷信号微弱,由于材料、结构和环境的影响,严重降低了加速度的动态测量精度。IEPE加速度传感器(Integral Electronics Piezoelectric Sensor)是指内置了信号处理电路的压电加速度传感器。本文在研究压电加速度传感器的动态特性的基础上,设计了一种低噪声、宽频带的IEPE电路,研制了IEPE加速度传感器,该传感器在低噪声、
电动汽车已成为全球汽车产业的重要细分领域。蔡英文当局试图借助岛内半导体和精密机械等领域的产业优势,提升台湾地区在全球电动汽车供应链中的地位。研究认为,台湾岛内厂商在中游核心零部件领域具有一定优势,且已成功切入全球供应链,但在电池和智能驾驶等领域仍缺乏核心竞争力。中国大陆电动汽车产业长期向好的发展态势,为岛内厂商提供了巨大的发展机遇,将成为深化两岸产业融合发展的重要领域。
随着我国城市化进程的加快,城市人口规模和用地规模不断增长,城市建设活动开始向自然山体区域延伸,从而引发山体生态环境的剧烈变化,带来山体植被生境破坏、区域水土流失、雨洪灾害等生态问题,城市自然山体的生态系统服务功能面临着严峻挑战。2018年3月自然资源部的成立,尤其是国土空间生态修复司的确立,将国土空间生态安全和生态修复的重要性提升到空前高度。面对生态环境问题的严峻性,长期以来,西宁市以政府为主导采
当前城市夜景照明建设中,色彩的盲目使用造成了人性关怀缺失、与建筑性格矛盾等诸多问题,如何合理地控制夜景照明色彩,即夜间景观色彩,为相关专业提供指导,是本研究迫切解决的问题。本文首先基于前期文献研究,明确研究目的、研究对象以及研究框架等。其次,以定性及定量化的方式对西安、重庆、上海等城市的城市中心区夜间景观色彩现状展开调研,分析了城市中心区夜景照明及夜间景观色彩现状,提出了目前城市中心区夜间景观色彩
加速度传感器在机器人运动控制、故障诊断与预测、地震波探测等领域有着广泛的应用,其动态性能约束了传感器的应用范围。现有针对加速度传感器动态特性的研究技术已经商用,但校准设备复杂且昂贵,不适用于多维加速度传感器动态特性研究。开展面向多维加速度传感动态特性测试技术研究,是目前多维加速度传感器的关键技术之一。本文针对采用冲击激励法进行传感器动态标定时所存在的不足,开展了冲击激励实验机理研究;为了进一步改善
电力系统可靠性评估可以从概率的角度分析电力系统的风险水平和薄弱环节,逐渐成为电力系统规划与运行的有效辅助工具,在保证电力系统安全可靠运行中起着重要作用。对大规模复杂电网进行模拟和评估时,蒙特卡罗模拟法因其计算效率与系统规模无关,具有绝对的优越性,因此在大电网可靠性评估中得到广泛应用。然而,蒙特卡罗模拟法在处理高度可靠的电力系统时面临收敛速度较慢的问题,如何改善蒙特卡罗模拟法的计算效率是一个值得深入