基于多数据源的药物互作预测研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yishaphoto123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物联合使用相互作用(DDI),即药物同时作用于人体时所产生的超出预期疗效的用药反应,可大致分为有害的和有益的两类。这其中有害的药物相互作用会导致患者产生药物不良反应影响患者康复,因此在实际用药过程中应当尽力避免这类互作。过去,可用的药物不多,仅凭医生经验便可以避免药物联合使用产生不良反应,可现如今药物成千上万,仅靠医生的经验远远不够,基于此,包括本课题在内的进行药物互作预测相关的研究变得尤为重要。论文选择通过计算手段,利用模式识别工具,通过药物的相关性质信息完成了基于相似性的药物相互作用的预测工作,具体工作内容如下。首先是数据的提取及预处理工作,包括编程提取药物特征数据、删除缺项条目以及统一格式。经处理,共获得包含化学结构、ATC代码、基因本体、通路、副作用、适应症、靶点序列以及酶的8个数据表格。第二,获得药物特征数据之后,根据特征的生物学性质,选择合适的算法完成相似性度量矩阵的计算。对于没有特殊含义的性质项,课题采用了余弦相似性和杰卡德相似性两种算法。除此之外,化学结构特征计算前先使用BFS及哈希算法获取分子指纹,基因本体相似性需要使用Resnik算法来完成,靶点序列相似性则选择了蛋白序列的局部比对算法Smith-Waterman算法。经处理,共获得8个相似性度量矩阵。第三,课题选择了合适的样本集以及分类器分别训练了PK预测模型和PD预测模型,并通过分类器性能指标完成了简单的性能评估工作。由于分类器目标是根据药物对之间的相似性完成互作的预测,因此首先通过特征组合将药物间相似性转化为药物对间相似性,获得了药物对特征数据,并通过正负样本集筛选数据获得positive训练数据和negative训练数据。其中,正样本来自Drugbank,删去重复项后获得共29万条互作记录,利用朴素贝叶斯对这些记录分类获得PK互作和PD互作模型的正样本。负样本的选取是本课题的创新点,相较于以往,本课题在删除过已知互作的随机药物对的基础上再次删除了包含相同ATC的药物对、临床治疗中没有出现过的药物对以及缺少化学结构信息和ATC信息的药物对,使得用于负样本的药物对相较于以往更贴近理想的无互作药物对集。借上述所得的样本进行了逻辑回归分类器的训练,获得了大于0.9的AUC值以及0.7左右的F1-measure值,并认为分类模型获得了极好的分类效果。第四,为了使这个结果更加可信,课题另外设计了三组实验从数据不理想、特征数量以及训练数据来源三个方面分析了分类器性能。首先是确认训练数据的偏好问题是否会影响模型的分类性能,在去除了可能带来数据偏好的化学结构数据的情况下,发现分类器性能并没有显著的下降。第二,课题通过删除一至两个特征和只是用单个特征确认分类器分类性能的改变,发现删除个别特征不会导致分类器性能的明显下降,而只是用单个特征则无法获取理想的分类器性能。第三则是只使用单个数据库提供的特征数据进行分类器训练,发现单数据源也能获得性能良好的分类模型,但相较于多数据源,其性能还是存在差距。最后,课题使用了新的药物进行了实际的互作预测工作,通过实际预测结果评价分类器分类性能。主要方案是将提取结果与FAERS数据库中挖掘出来的药物互作结果作比较,发现约30~40%的预测结果能够在FAERS数据中找到。在基于假设:PD互作易发生在作用于相同组织的药物间的试验中,通过假设检验确认预测结果确实与规律相符,从而侧面证明了预测结果的准确。另外,课题也从预测结果中选择了一对,通过药物的相关性质确认了该药物对确实存在有意义的互作,进而证明了预测的成功。
其他文献
贫困问题是人类面临的巨大挑战,摆脱贫困是世界各国人民的共同追求。目前,农村贫困依旧是我国扶贫开发进程中的“短板”,实现农村人口全面脱贫仍然是当前脱贫工作亟待解决的关键问题。对农村贫困的精准识别、探究农村贫困的空间分布特征及其时变规律、定量分析农村致贫原因,可以为乡村精准扶贫政策的制定和实施提供参考。本文以国家级重点贫困县江西省永新县为研究区域,借助R语言平台、SPSS、Arcgis、Geoda、G
从中国目前的实际情况来看,中小企业在发展的过程中最大的阻碍就是融资方面的困难。之所以会出现这一现象,是由于国内信用体系不完善,中小企业在融资过程中没有更多的选择。
在我国的东南沿海地区,地下水位较高,软弱地基土分布较为广泛,管桩以其施工便捷、承载能力高被广泛运用在各种工程建设项目中。和实芯桩相比,管桩是一种应用时间比较短的桩基
差分可证安全性和线性可证安全性是考查一个分组密码抵抗差分攻击和线性攻击能力的一种基本手段。差分可证安全性和线性可证安全性有两种刻画手段。一种手段是考察分组密码的
中国是一个农业大国,三农问题是关系国计民生的根本性问题。作为一项重要的惠农政策,农业综合开发产业化政策经过近30年的推广实践,在加大农业投入、改善农业基础、增加农民收入等方面起到了极其重要的促进作用。RZ镇作为青岛市最大的农业镇,通过积极落实好农业产业化政策,有效调整了当地的农业产业结构,促进了 RZ农业强镇的发展。但随着政策推广不断深入,项目在实施过程中逐渐暴露出诸如项目单位发展不均衡、项目收益
图像修复是计算机视觉领域研究的一项重要内容,其目的是利用图像中已有信息还原图像缺损部分。随着深度学习的发展,基于卷积神经网络的图像修复技术更是在刑事侦破、文物保护及影视特效等领域有着重要的应用。但现有的图像修复方法往往存在着图像修复结果不够清晰以及结果多样化不足等缺点。基于此,本文以人脸图像为研究对象,提出了一种基于变分自编码器(variational autoencoder,VAE)的图像修复新
插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,PHEV)与传统的混合动力汽车相比,既可以由外接电源插座充电且因装配有大容量电池使其具有较长的纯电动续驶里程。在还
目的通过对跨塘镇老年妇女健康状况调查分析,了解跨塘镇老年妇女的健康情况,提出为提高老年妇女健康质量进行的对策。方法和步骤2014年参加跨塘镇老年体检及妇女病普查的50岁
人类大脑内部神经元之间的同步作用形成了结构和功能上非常复杂的脑神经网络,但是目前人脑功能和结构异常引起的疾病问题日益突出,常见的阿尔茨海默氏病(老年性痴呆),帕金森
背景蛛网膜下腔出血(subarachnoidhaemorrhage,SAH)是临床常见的出血性脑血管疾病,约占脑卒中的5%,它常与许多病理生理改变有关,其中最重要的是迟发性脑血管痉挛和早期脑损伤