论文部分内容阅读
药物联合使用相互作用(DDI),即药物同时作用于人体时所产生的超出预期疗效的用药反应,可大致分为有害的和有益的两类。这其中有害的药物相互作用会导致患者产生药物不良反应影响患者康复,因此在实际用药过程中应当尽力避免这类互作。过去,可用的药物不多,仅凭医生经验便可以避免药物联合使用产生不良反应,可现如今药物成千上万,仅靠医生的经验远远不够,基于此,包括本课题在内的进行药物互作预测相关的研究变得尤为重要。论文选择通过计算手段,利用模式识别工具,通过药物的相关性质信息完成了基于相似性的药物相互作用的预测工作,具体工作内容如下。首先是数据的提取及预处理工作,包括编程提取药物特征数据、删除缺项条目以及统一格式。经处理,共获得包含化学结构、ATC代码、基因本体、通路、副作用、适应症、靶点序列以及酶的8个数据表格。第二,获得药物特征数据之后,根据特征的生物学性质,选择合适的算法完成相似性度量矩阵的计算。对于没有特殊含义的性质项,课题采用了余弦相似性和杰卡德相似性两种算法。除此之外,化学结构特征计算前先使用BFS及哈希算法获取分子指纹,基因本体相似性需要使用Resnik算法来完成,靶点序列相似性则选择了蛋白序列的局部比对算法Smith-Waterman算法。经处理,共获得8个相似性度量矩阵。第三,课题选择了合适的样本集以及分类器分别训练了PK预测模型和PD预测模型,并通过分类器性能指标完成了简单的性能评估工作。由于分类器目标是根据药物对之间的相似性完成互作的预测,因此首先通过特征组合将药物间相似性转化为药物对间相似性,获得了药物对特征数据,并通过正负样本集筛选数据获得positive训练数据和negative训练数据。其中,正样本来自Drugbank,删去重复项后获得共29万条互作记录,利用朴素贝叶斯对这些记录分类获得PK互作和PD互作模型的正样本。负样本的选取是本课题的创新点,相较于以往,本课题在删除过已知互作的随机药物对的基础上再次删除了包含相同ATC的药物对、临床治疗中没有出现过的药物对以及缺少化学结构信息和ATC信息的药物对,使得用于负样本的药物对相较于以往更贴近理想的无互作药物对集。借上述所得的样本进行了逻辑回归分类器的训练,获得了大于0.9的AUC值以及0.7左右的F1-measure值,并认为分类模型获得了极好的分类效果。第四,为了使这个结果更加可信,课题另外设计了三组实验从数据不理想、特征数量以及训练数据来源三个方面分析了分类器性能。首先是确认训练数据的偏好问题是否会影响模型的分类性能,在去除了可能带来数据偏好的化学结构数据的情况下,发现分类器性能并没有显著的下降。第二,课题通过删除一至两个特征和只是用单个特征确认分类器分类性能的改变,发现删除个别特征不会导致分类器性能的明显下降,而只是用单个特征则无法获取理想的分类器性能。第三则是只使用单个数据库提供的特征数据进行分类器训练,发现单数据源也能获得性能良好的分类模型,但相较于多数据源,其性能还是存在差距。最后,课题使用了新的药物进行了实际的互作预测工作,通过实际预测结果评价分类器分类性能。主要方案是将提取结果与FAERS数据库中挖掘出来的药物互作结果作比较,发现约30~40%的预测结果能够在FAERS数据中找到。在基于假设:PD互作易发生在作用于相同组织的药物间的试验中,通过假设检验确认预测结果确实与规律相符,从而侧面证明了预测结果的准确。另外,课题也从预测结果中选择了一对,通过药物的相关性质确认了该药物对确实存在有意义的互作,进而证明了预测的成功。