基于机器学习方法的药物不良反应预测及分析

被引量 : 0次 | 上传用户:weishoukai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,医疗安全正日益得到重视。其中,对药物不良反应信号的预测,在药物安全研究领域与新药研发领域具有重要的意义。药物不良反应每年会造成全球三分之一的医疗事故,以及上千亿美元的经济损失。因此,对药物不良反应的研究越来越受到世界各国的重视。为了监测药物不良反应,学者们基于医疗数据库提出了一些统计学模型和数据挖掘方法来监测/预测<药物-不良反应>关联关系。一方面,相关的数据挖据方法大都是基于关联规则或模式匹配算法,挖掘<药物-不良反应>的关联关系。由于这些数据挖掘算法只关注高频繁度的关联关系,因此存在两类缺点:(1)无法监测到低频的关联关系;(2)由于忽略了关联规则中混杂因子的影响,因此无法控制伴随药物对监测关联关系的影响,从而造成较高的错误率。另一方面,统计学对药物不良反应问题的建模,大都在小样本数据上基于列关联表计算<药物,不良反应>关联关系的强度,因此存在两类缺点:(1)小样本数据造成关联关系预测信号的偏差较大;(2)无法基于不同病人进行个性化预测。为解决上述问题,本文通过收集处理海量医疗数据,并基于机器学习方法针对药物不良反应监测的相关问题进行了研究。首先,本文的第一个研究问题是病人药物不良反应的个性化预测问题。药物不良反应的个性化,是指由于病人体质的差异,相同药物在不同病人体内会产生特定的不良反应,因此需要根据不同病人的特征来预测相应的药物不良反应。本文提出了一种基于病人特征相似度计算的多任务学习模型。该工作基于美国食品药品管理局公开的药物不良反应数据库FAERS,对病人信息构建特征空间,并首次提出将推荐系统中个性化推荐的方法应用在药物安全研究领域。本文基于FAERS数据提出多任务学习模型,通过计算病人与各种不良反应的关联强度,建立对应的个性化药物不良反应排序表。此外,本文原创性提出了一种新的衡量药物不良反应关联强度的验证标准HitRate@nn。通过实验表明,该模型在预测病人个性化药物不良反应问题上,有较高的准确率。其次,本文的第二个研究问题是药物多频率不良反应的预测问题。由于不同频率的不良反应造成的问题和危害不同,尤其是低频药物不良反应在临床测试阶段很难被检测出来,因此需要根据不同病人特征及药物属性来预测不同频率的不良反应。为此,本文提出了一种基于多核函数学习的多任务学习模型。该工作通过分析FAERS结构化数据,提出根据药物分子结构差异进行特征分类,并构建多核函数池。该模型通过核函数学习方法找出每一类特征对应的最优核函数,并根据不同特征构建对应的凸优化限制条件以及规则化函数,令相同特征在不同的病人不良反应预测任务中实现权重自动调整,达到预测不同频率不良反应的要求。同时,该模型将基于历史任务学习中训练的药物特征权重及不同药物特征核函数间的关系权重,用于对病人新药组合的预测任务中,可以实现对病人新药组合不同频率不良反应的预测。在验证标准HitRate@n的基础上,本文提出了一种衡量不同频率不良反应的验证标准overall-HitRate@n。实验表明,该模型在预测病人不同频率不良反应的问题上,尤其是低频药物不良反应,均优于所比较的方法。最后,本文的第三个研究问题是计算<药物,不良反应>关联关系的正阳性/因果性问题。由于小样本数据以及混杂因子(即伴随药物)的影响,造成所监测的关联关系的准确率较低,即关联关系的正阳性/因果性较弱。本文基于收集处理的4百万条FAERS病人数据,提出了一种伽玛泊松衰减多变量线性回归模型。本文使用伽玛泊松共轭先验分布对<药物,不良反应>的出现频率建模,并提出在监测单一药物不良反应关联关系时,将特征空间中其他所有药物视作伴随药物,通过建立回归模型减少混杂因子对关联关系的影响。本文对药物不良反应监测相关问题进行了深入研究,针对特定问题,给出了针对性的解决方案。本文的创新点和贡献如下:(1)针对药物不良反应个性化预测问题,本文首次提出了一种基于病人特征相似度计算的多任务学习模型;(2)针对数据挖掘方法难以监测低频药物不良反应的问题,本文提出基于多核函数多任务学习模型,通过多核函数多任务凸优化学习来预测药物不同频率的不良反应,并能有效的监测到低频药物的不良反应;(3)针对<药物,不良反应>关联关系正阳性/因果性的准确率问题,本文提出一种基于伽玛泊松衰减多变量线性回归模型,通过控制混杂因子来提高预测<药物,不良反应>关联关系的正阳性/因果性。综上所述,本文在基础理论和关键技术方面的研究成果为监测药物不良反应问题提供了新的途径。
其他文献
委婉语的分类方法多种多样。现有的分类主要是从语言本身着眼的 ,没有顾及到委婉语使用者的目的 ,从社会功能和语用心理的角度 ,可将委婉语分为利他、泛利、利己三类。利己委
最高额抵押制度因其高效、便捷的特点在银行担保融资业务中被广泛使用。最高额抵押所担保主债权不特定的属性也伴随着债权不确定的风险,法院查封最高额抵押物是债权确定的一
电影海报作为一种以图形设计为主的表现方式,是对电影的形象描述,能够较为直观地反映电影所要表达的主要内容和思想感情。该文介绍了电影海报中图形设计的作用,重点阐述了图
近几年来,关注普通民众生存、生活状况的民生新闻成为新闻传媒最常见的新闻价值取向。各种类型的大众传媒在传播民生新闻发挥其舆论引导力方面有着积极的表现,赢得了读者,并
<正>《信用卡业务管理办法》颁布1996年1月26日,人民银行颁布《信用卡业务管理办法》,这一法规的颁布和实施对于规范信用卡业务的运作、促进信用卡业务领域的法制建设起到了
<正>有人认为制造业的本质无非如此—要么做最高端,要么做性价比最高。丰田作为后者的范例,获取了全球化之利,但同时也是深陷全球化与本土化矛盾漩涡中的标本。2012年北京车
《伤寒论》对心病的辨治较为系统,在病因病机方面已认识到有邪实、正虚、虚实夹杂三个方面,治疗上注重脏腑之间的相互联系,并注重"八法"的运用。
小学生正处于个体生理上生长发育和心理上各种个性结构及整体素质发展的奠基阶段,此时的良性发展变化对他们以后的各项生活学习活动都有着至关重要的影响,所以本文选取小学生
针对分簇无线传感网中的节点认证问题,使用轻量级的哈希函数和异或运算,设计了一种节点认证及密钥协商方案,将匿名机制引入节点认证过程中,保护了节点隐私安全,提高了网络抵