基于机器学习的抗癌多肽类药物的智能识别

来源 :江南大学 | 被引量 : 0次 | 上传用户:i_love_snj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,癌症患者越来越多,并且癌症的死亡率也在不断增加。对于大多数癌症患者来说,传统的物理和化学治疗方法不仅昂贵而且效率不高。此外,一些抗癌药物在杀死癌细胞的同时也会损害正常细胞,患者长时间服用这些药物会使癌细胞产生耐药性。因此,迫切的需要开发新的更加有效的药物。而多肽作为一种高特异性、选择性和对人体伤害小的安全可靠的治疗候选药物,近年来备受研究者的青睐。随着多肽药物数据的增加以及机器学习算法的快速发展,挖掘多肽药物特征以进行新药设计成为一个科研研究热点。尽管研究者基于机器学习算法在多肽的识别和预测等问题上取得了颇为丰富的成果,但在特征提取、分类方法以及多肽设计方面仍可进一步研究。基于机器学习的理论,本学位论文研究了氨基酸-氨基酸之间的特征关系、多肽药物的识别以及生成多肽药物相关问题,具体研究工作概述如下:1.抗癌多肽药物中氨基酸-氨基酸的特征研究。在研究多肽中氨基酸-氨基酸之间的特征关系时,仅考虑序列的信息是远远不够的。鉴于此,本文除了考虑相邻二肽和带有间隔的二肽之间的关系,还考虑了二级结构的信息,即判断氨基酸和氨基酸之间是否处于相同的二级结构,并设计了不同的打分规则,比较了网格搜索和随机搜索两种方法的预测精度和搜索时间,结果表明牺牲了少许预测准确性后,随机搜索比网格搜索的搜索时间将近减少了2000倍,因此将打分规则和随机搜索结合确定最佳的参数组合。为进一步探索多肽序列之间的关系,通过多序列比对寻找序列间的相似性,对于发现生物序列中的功能、结构和进化的信息具有非常重要的意义。为辅助实验,本论文还提出了一种计算概率的方法来确定保守位置。2.基于机器学习识别抗癌多肽药物。在这个过程特征提取是至关重要的步骤,目前对于多肽序列表示方法的研究已经取得了一些研究成果,但是对多肽结构方面的研究相对较少。本研究以抗癌多肽和抗高血压多肽为研究对象,分别考虑了多肽的一级、二级、三级结构的信息,并且提出了一种新的描述多肽类药物的方法,使用复杂网络中的拓扑属性值(度、接近中心性、介数中心性)从各个层次方面描述多肽类药物。接着构建了支持向量机、K近邻、随机森林三种算法模型,为验证方法的有效性,将所提出的方法与其他两种方法进行比较。结果表明,与现有方法相比,该模型能够很好的预测抗癌多肽药物和抗高血压多肽药物。此外,模型的泛化能力通过构建3个独立的测试数据集得到了很好的验证。为了得到区分抗癌多肽药物和抗高血压多肽药物的显著特征,本文基于支持向量机递归特征消除的特征选择算法,根据权重排名,得到的重要特征为Trp、Ala、Asn、Val、Glu、Ile、Lys、Leu、Arg、Tyr;二级结构中三种类型为α-螺旋、转角以及卷曲;三级结构中得到的重要作用力为氢键和范德华力。为了验证所选特征的合理性,分别从两类多肽类药物的长度、一级序列中氨基酸的含量、氨基酸与八类二级结构的结合紧密度、三级结构中的强作用力和弱作用力的分布情况四个方面进行分析和讨论,发现它们与所选重要的特征是一致的。为了方便其他学者的研究,本文基于Django框架提供了一个免费的在线预测平台。3.基于长短期记忆网络生成抗癌多肽药物。抗癌多肽药物是一种抗击癌症的新型药物,因其毒性低、副作用小已被众多研究者当成治疗疾病的有效药物。然而,随着抗癌药物的耐药性不断上升,迫切需要生成新的抗癌多肽药物。本文首先分析了生成新的多肽序列方法的研究现状,着重介绍了基于长短期记忆网络算法生成新的多肽药物的原理,并指出了考虑函数分析和理化性质(疏水性、氨基酸频率以及电荷)来判断生成多肽药物的性能是不全面的。因此,加入双语评价研究等相关评价指标来计算生成序列和原始序列之间的相似性,以此来更好的评估生成多肽序列的性能。与此同时,将采样的新序列和原始序列输入到随机森林算法中进行预测,结果表明生成的序列是可靠的。综上,本论文首先以二肽为研究对象,分别基于一级结构和二级结构进行特征研究,基于多序列比对算法深入了解物种的序列保守性,从而可以识别对多肽功能最关键的序列部分;接着提出了一种新的描述多肽类药物特征的方法,结合多肽的一级结构、二级结构和三级结构信息,并将其用于多肽药物的识别,实验结果表明本论文提出的方法能够更好的识别多肽药物,特征选择算法有助于挖掘多肽药物的关键特征,辅助后续学者的研究;最后基于长短期记忆网络算法生成新的多肽药物,并将采样的样本在函数分析、理化性质以及双语评价研究等相关评价指标上评估其性能。本论文的创新性主要体现在从系统角度,用网络科学理论提取多肽特征,对两类药物进行准确识别,进一步挖掘两类多肽药物的关键特征,为分析和设计多肽类新药提供理论基础。
其他文献
本文在制度分析理论和科学社会学理论的指导下,对当前期刊论文撤销制度进行了梳理,在参考已有研究的基础上建立了期刊论文撤销制度学术净化效果的影响因素模型,以Web of Science中1951年至2021年的9089篇撤销论文基本文献数据、引用数据及其对应的撤销声明数据为主要数据来源,进行了变量的选取和操作化,将撤销后被引比例作为期刊论文撤销制度学术净化效果的衡量因素,在控制作者数量、参考文献数量、
学位
机器学习尤其是深度学习技术促进着现代医学的发展,在很多疾病的诊断过程中起到了重要作用。传统机器学习方法需要大量的数据来训练算法模型,而在智慧医疗领域,由于数据的来源涉及患者隐私,很难获取海量的生物医学数据进行公开研究,这给机器学习技术在该领域的应用带来了诸多挑战。在该背景下,本文主要结合EEG脑电癫痫信号和新冠肺炎肺部CT图像这两种生物医学数据的自动诊断问题,开展面向生物医学数据的小样本分类方法研
学位
点云的特征检测是点云数据处理中最基础也是最重要的一个环节,数据处理中的多数算法都与点云特征提取有一定的关联,例如:点云的配准、分割、曲面重建、重采样等。其中,点云配准技术在计算机视觉中起着举足轻重的作用,并且广泛应用于三维重建、目标识别与跟踪、智能机器人等领域,具有重要的研究价值。传统的基于点特征的点云配准技术,无法保证对应关系的准确性和效率。随着对测绘成果的要求不断提高,对配准技术的要求也随之提
学位
环状RNA(circ RNAs)-RNA结合蛋白(RBPs)结合位点在许多生物过程中起着重要作用。因此,研究RBPs在circ RNA上的结合位点是至关重要的。虽然基于传统机器学习和深度学习的方法已被用于预测circ RNA与RBPs之间的相互作用,但对已有算法还未能充分学习circ RNA的相关特征,也未能进行高效的协作学习。针对上述问题,本文研究两种用于circ RNA-RBP结合位点的识别方
学位
服装解析由于其在时尚合成、姿态估计等领域的广泛应用而受到越来越多的关注。随着卷积神经网络的快速发展,现有的服装解析方法在卷积神经网络技术的帮助下也取得了优异的性能,极大地推进了服装解析任务技术的研究和应用。但是由于人体形态多变、服装类别多样、目标对象尺寸差别大以及对象边缘模糊等特点,现有的服装图像解析方法很容易产生错误解析结果,特别是在一些相似和细小的服装类别上。同时卷积神经网络自身也存在重复的下
学位
互联网的飞速发展以及信息采集、分享方式不断丰富促使人们步入大数据时代,数据的急剧增加带来严重的“信息过载”问题,推荐系统便是针对这一问题所提出的,推荐系统分析用户的行为记录,挖掘用户的个性化需求,帮助用户找到他们感兴趣但很难被发现的产品。如今网络内容日益丰富,物品数目动辄百千万计,用户交互数据非常稀疏,导致大多关联分析算法效果一般;由于新用户、新物品可供分析利用的信息较少,很难给出精准的推荐,从而
学位
文本情感分析是自然语言理解的热门研究方向,是对含有情感信息的文本数据进行分析、处理和总结。传统的文本情感分析方法需要人工构造特征,耗费大量的人力和时间,比如传统情感词典分析方法。而机器学习算法对文本进行情感分析时,出现发掘信息不完整,获取文本数据特征稀疏的情况,例如循环神经网络。近些年,深度学习技术在自然语言理解领域取得了显著成绩,一定程度上能有效克服传统方法和机器学习的缺点,因此本文基于深度学习
学位
在弱光环境下拍摄的照片中,由于光照条件不充足,通常会导致生成的图像产生大量的噪声、颜色退化、低对比度和曝光不足等严重的问题,这不仅使得图像的可视效果难以接受,同时也丢失了许多细节信息。这种情况也对其他计算机视觉任务产生了严重影响,如目标检测、人脸识别、水下图像成像以及视频监控等。针对这些问题本文主要从缺失信息的恢复和光照场景的自适应两个角度进行了下列研究:1)由于低照度图像中通常含有严重的噪声,导
学位
在欣赏书画艺术作品时,观赏者可以从作品的静态笔触中感受到暗示性的运动,并且大脑中会对其感受到的运动进行无意识的运动模拟。这一心理现象在各种艺术文献中有着广泛的记载,并被归类为“具身美学”的重要感知模式之一。在实验美学中对这类审美现象有相关研究,但这些研究仍停留在审美偏好和脑神经活动方面,过去的研究和实践既没有尝试从大脑中获取想象的笔触运动的“数据”,也没有尝试在此基础上以新的形式重新创作艺术品。目
学位
文本情感分析研究人们在文本中表达的情感、观点、态度。细粒度情感分析是其中的一个细分领域,相比于研究文本整体情感的粗粒度情感分析,细粒度情感分析直接对文本中的实体进行情感分析,具备更多的实用价值。细粒度情感分析的目标是提取出文本中实体,并对根据句中观点对每个实体的情感倾向进行分类。按提取的项目不同,其可以分为方面项抽取、观点项抽取及方面情感分类三个子任务。本文主要研究方面情感分类和结合三个子任务的方
学位