论文部分内容阅读
目前,医疗安全正日益得到重视。其中,对药物不良反应信号的预测,在药物安全研究领域与新药研发领域具有重要的意义。药物不良反应每年会造成全球三分之一的医疗事故,以及上千亿美元的经济损失。因此,对药物不良反应的研究越来越受到世界各国的重视。为了监测药物不良反应,学者们基于医疗数据库提出了一些统计学模型和数据挖掘方法来监测/预测<药物-不良反应>关联关系。一方面,相关的数据挖据方法大都是基于关联规则或模式匹配算法,挖掘<药物-不良反应>的关联关系。由于这些数据挖掘算法只关注高频繁度的关联关系,因此存在两类缺点:(1)无法监测到低频的关联关系;(2)由于忽略了关联规则中混杂因子的影响,因此无法控制伴随药物对监测关联关系的影响,从而造成较高的错误率。另一方面,统计学对药物不良反应问题的建模,大都在小样本数据上基于列关联表计算<药物,不良反应>关联关系的强度,因此存在两类缺点:(1)小样本数据造成关联关系预测信号的偏差较大;(2)无法基于不同病人进行个性化预测。为解决上述问题,本文通过收集处理海量医疗数据,并基于机器学习方法针对药物不良反应监测的相关问题进行了研究。首先,本文的第一个研究问题是病人药物不良反应的个性化预测问题。药物不良反应的个性化,是指由于病人体质的差异,相同药物在不同病人体内会产生特定的不良反应,因此需要根据不同病人的特征来预测相应的药物不良反应。本文提出了一种基于病人特征相似度计算的多任务学习模型。该工作基于美国食品药品管理局公开的药物不良反应数据库FAERS,对病人信息构建特征空间,并首次提出将推荐系统中个性化推荐的方法应用在药物安全研究领域。本文基于FAERS数据提出多任务学习模型,通过计算病人与各种不良反应的关联强度,建立对应的个性化药物不良反应排序表。此外,本文原创性提出了一种新的衡量药物不良反应关联强度的验证标准HitRate@nn。通过实验表明,该模型在预测病人个性化药物不良反应问题上,有较高的准确率。其次,本文的第二个研究问题是药物多频率不良反应的预测问题。由于不同频率的不良反应造成的问题和危害不同,尤其是低频药物不良反应在临床测试阶段很难被检测出来,因此需要根据不同病人特征及药物属性来预测不同频率的不良反应。为此,本文提出了一种基于多核函数学习的多任务学习模型。该工作通过分析FAERS结构化数据,提出根据药物分子结构差异进行特征分类,并构建多核函数池。该模型通过核函数学习方法找出每一类特征对应的最优核函数,并根据不同特征构建对应的凸优化限制条件以及规则化函数,令相同特征在不同的病人不良反应预测任务中实现权重自动调整,达到预测不同频率不良反应的要求。同时,该模型将基于历史任务学习中训练的药物特征权重及不同药物特征核函数间的关系权重,用于对病人新药组合的预测任务中,可以实现对病人新药组合不同频率不良反应的预测。在验证标准HitRate@n的基础上,本文提出了一种衡量不同频率不良反应的验证标准overall-HitRate@n。实验表明,该模型在预测病人不同频率不良反应的问题上,尤其是低频药物不良反应,均优于所比较的方法。最后,本文的第三个研究问题是计算<药物,不良反应>关联关系的正阳性/因果性问题。由于小样本数据以及混杂因子(即伴随药物)的影响,造成所监测的关联关系的准确率较低,即关联关系的正阳性/因果性较弱。本文基于收集处理的4百万条FAERS病人数据,提出了一种伽玛泊松衰减多变量线性回归模型。本文使用伽玛泊松共轭先验分布对<药物,不良反应>的出现频率建模,并提出在监测单一药物不良反应关联关系时,将特征空间中其他所有药物视作伴随药物,通过建立回归模型减少混杂因子对关联关系的影响。本文对药物不良反应监测相关问题进行了深入研究,针对特定问题,给出了针对性的解决方案。本文的创新点和贡献如下:(1)针对药物不良反应个性化预测问题,本文首次提出了一种基于病人特征相似度计算的多任务学习模型;(2)针对数据挖掘方法难以监测低频药物不良反应的问题,本文提出基于多核函数多任务学习模型,通过多核函数多任务凸优化学习来预测药物不同频率的不良反应,并能有效的监测到低频药物的不良反应;(3)针对<药物,不良反应>关联关系正阳性/因果性的准确率问题,本文提出一种基于伽玛泊松衰减多变量线性回归模型,通过控制混杂因子来提高预测<药物,不良反应>关联关系的正阳性/因果性。综上所述,本文在基础理论和关键技术方面的研究成果为监测药物不良反应问题提供了新的途径。