基于迁移学习和文本挖掘的PubMed文献数据库药物不良反应识别通用算法与系统研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:zhouyonge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:药物不良反应(Adverse drug reaction,ADR)是在新药研发过程中必须考虑的核心因素之一。随着步入老龄化社会,复杂和多发的并发症与合并疾病患者数量激增,治疗方法日益复杂。药物不良反应(ADR)已经是现代医疗保健系统面临的一大挑战。然而,目前尚无从文献数据库中一站式自动化提取药物不良反应的高效率开源式的解决方案。本研究旨在开发一个通用算法系统,使用者仅需提供目标药物的Me SH词检索策略(例如,"Aspirin/adverse effects"[MAJR]),能够自动地实现从Pub Med文献数据库中识别并提取药物不良反应功能,帮助科研工作者从生物医学文献中发掘药物不良反应信息,为辅助临床用药和公共卫生药物监测提供参考依据。研究方法:本研究主要分为两部分:1、ADRNLP药物不良反应识别通用算法系统的设计。2、利用该算法系统进行案例应用(二甲双胍、奥马珠单抗、100种FDA获批的新药)1、设计ADRNLP药物不良反应识别通用算法系统:(1)利用文本挖掘技术构建基准数据库。本项目收集了近20年间Pub Med文献数据库中与阿司匹林不良反应相关的文献,借助文本挖掘技术对文献进行信息提取和文本处理,从而构建阿司匹林基准语料库,用于下游训练并微调迁移学习模型。(2)基于Bio BERT模型微调训练迁移学习模型Bio BERT+Aspirin模型。本研究以随机从阿司匹林基准数据集抽取的10000个阿司匹林句子为训练集,对Bio BERT模型进行微调训练,训练形成Bio BERT+Aspirin迁移学习模型。针对模型的评估与验证,本项目以业界金标准ADE数据集和自行归纳数据集(阿司匹林数据集)为校验基准,以F1-score值作为评估指标,比较基准模型(Bio BERT)和微调模型(Bio BERT+Aspirin)的性能。(3)利用可视化知识图谱分析系统Grakn软件可视化预测结果。本研究针对迁移学习模型的预测结果,构建一个Grakn软件可视化ADR的算法可视化模型预测结果,便于研究者分析和研究ADR。2、利用ADRNLP算法系统进行案例应用。本研究通过3个案例详实展示ADRNLP算法系统在药物不良反应识别领域应用的巨大潜力。(1)识别/预测二甲双胍的不良反应;(2)识别/预测奥马珠单抗的不良反应;(3)识别/预测100种2018至2020年FDA获批的新药不良反应。结果:1、本研究成功搭建ADRNLP算法系统,且ADRNLP算法系统的核心模型性能表现优异。在模型基本性能方面,迁移学习模型Bio BERT+Aspirin模型在预测阿司匹林验证集获得的F1-score值为0.949,较基准模型Bio BERT模型(F1-score值:0.697)有大幅提高,提高了0.252。在迁移学习能力方面,Bio BERT+Aspirin模型在预测ADE数据集获得的F1-score值达到0.833(Bio BERT为0.733),Bio BERT+Aspirin模型提高了0.100,Bio BERT+Aspirin模型迁移学习能力表现更优异。2、ADRNLP算法系统在识别ADR应用取得巨大的潜力。(1)ADRNLP算法系统从Pub Med数据库中总共识别出107种二甲双胍的不良反应。本研究从文本挖掘形成的二甲双胍数据集共识别出771个包含二甲双胍不良反应的句子,累计107种ADRs。我们将此结果与SIDER数据库对比发现其中35种不良反应在SIDER数据库有记录,其余72种ADR尚未被SIDER收录。我们还利用Cytoscape软件构建ADRNLP结果与SIDER数据库交互网络图,发现与二甲双胍相关的临床研究的热门趋势。(2)本研究算法系统从Pub Med数据库检索发现144篇文献与奥马珠单抗不良反应相关的文献。迁移学习模型最终识别出13句包含奥马珠单抗不良反应的句子。经Grakn知识图谱软件分析表明其存在9大不良反应,分别为:三相性过敏性休克、荨麻疹、头痛、中风、血管性水肿、嗜酸性肉芽肿性多血管炎、过敏反应、脱发和变应性肉芽肿性血管炎。(3)ADRNLP算法系统应用于100种FDA批准新药的结果发现,算法系统从Pub Med文献数据库中识别出72种药物的290种不良反应,研究频次最高的药物和不良反应分别是氨磺必利和腹泻,分别占总频次的19%和5.03%。我们利用Cytoscape软件分析药物不良反应交互网络发现,59种药物之间具有相同的不良反应,其余13种药物与其他药物不存在重叠的不良反应。此外,利用g CLUTO软件对药物—ADR共现矩阵进行聚类分析,最终将72种药物—290不良反应共现矩阵聚为7类。结论:本研究成功构建一个药物不良反应识别算法系统。研究者只需提供药物的Me SH检索策略,我们研发的药物不良反应识别系统ADRNLP就可以自动、准确并稳定地从Pub Med文献数据库识别并提取药物不良反应。我们证明了用小型数据集微调的迁移学习模型是检测各种药物不良反应的合适的通用解决方案。鉴于从大规模医学文献出版物中识别药物不良反应的需求不断增加,我们认为我们的算法系统是应对当前药物不良反应挑战的潜在有力选择。
其他文献
目的:研究腹腔镜完全腹膜外修补术(totally extraperitoneal,TEP)治疗老年人腹股沟疝(≥60岁)的临床疗效。方法:选取本院2020年7月至2021年7月诊治的183例老年腹股沟疝患者(年龄≥60岁),其中原发疝173例,复发疝10例,行腹腔镜完全腹膜外疝修补术(TEP),观察其手术效果及并发症等指标。结果:单侧疝共135例,其中斜疝105例,直疝21例,股疝8例,复合疝1例
学位
目的:探究颈后路单开门术式治疗无骨折脱位型颈髓损伤的疗效和对颈椎矢状面平衡变化的影响。方法:回顾性分析中国医科大学绍兴医院2015年6月~2020年6月共收治的SCIWORA 42例患者的临床资料。根据手术方法的不同,分为联合组(17例,采用经颈后路单开门椎管扩大成形微型钛板+单侧侧块钉棒系统内固定术)和微型钛板组(25例,采用经颈后路单开门椎管扩大成形微型钛板内固定术)。联合组男12例,女5例,
学位
报纸
目的:探索AgNPs浸渍PADM(AgNPs-PADM)水凝胶治疗感染性皮肤缺损的疗效。研究方法:我们将AgNPs以物理包埋的方式加入到PADM水凝胶中,合成了AgNPs-PADM水凝胶。我们检测了PADM水凝胶和AgNPs-PADM水凝胶的孔隙率、保湿性能、降解性能、抗菌性能、细胞毒性、抗氧化性以及体内治疗感染性皮肤创口的能力。结果:PADM水凝胶以及AgNPs-PADM水凝胶对pH敏感,其在酸
学位
报纸
<正>JWN Energy,2023-04-03壳牌公司最近发布了两个能源安全情景,这是其长期以来对能源可能的未来提出的一系列全面而令人难忘的观点中最新的。第一个称为群岛情景,是世界当前路径的延伸;第二个称为天空2050情景,是从净零排放和限制全球气温有限上升的理想结果的倒退。值得注意的是,天空2050情景认为高油价会刺激需求减少。在本周末欧佩克+出乎意料地决定削减石油产量之后,这是应对通胀上升国
期刊
目的:淋巴瘤是最常见的血液异质性恶性肿瘤,是我国男性的第八大高发恶性肿瘤,给国家带来了沉重的疾病负担。本文旨在描述辽宁省城市淋巴瘤患者10年生存率水平,并阐明其预后影响因素,为提高辽宁省淋巴瘤患者的生存率提出预防干预策略,为辽宁省淋巴瘤监测、防治策略的制订提供参考依据。研究方法:在辽宁省肿瘤发病报告数据库中选取沈阳、鞍山和本溪市城市居民中于2000-2002年间确诊的所有淋巴瘤患者,利用自编肿瘤患
学位
报纸
目的 正念心理疗法对改善青少年焦虑情绪的疗效分析。方法 本次研究从本院2021年1月~2022年8月收入的青少年焦虑情绪患者中抽取68例,按照随机数表法将其分为了观察组和对照组两组。对照组接受常规的治疗,观察组联合正念心理疗法治疗,对比两组依从性、治疗有效率、睡眠质量、焦虑情绪评分以及生活质量。正态计量资料采用t检验,计数资料采用x~2检验。结果 观察组综合依从31例(91.18%),对照组综合依
期刊
目的:探究老年高危患者行髋关节置换术后滞留ICU超过48h治疗的危险因素,并针对这类高危患者拟定相应的干预策略。方法:以我院骨科病房2020年03月至2021年05月期间诊治的153例老年髋关节置换患者作为研究对象,其中男性患者76例,女性患者77例;年龄范围67-88岁,平均年龄(76.37±9.15)岁;其中120例患者为Ⅱ-Ⅳ型股骨颈骨折,33例患者为股骨粗隆间骨折;所有患者均行人工髋关节置
学位