论文部分内容阅读
随着电子病历的大规模使用,有大量研究基于电子病历所提供的数据做数据分析。数据研究表明在疾病中存在大量的而广泛的共病现象。共病的产生和研究对日后的对疾病产生的机理和对有共同点的疾病的预防和治疗有着重要作用。在本课题中,使用了更加丰富的数据源,更有优势的算法,旨在得到更为广泛或更为难以发现的共病对。本课题对美国食品和药品管理局药品不良反应报告系统(FAERS)所提供的病历数据实现挖掘和分析。在此基础上,对共病对做网络化,实现可视化。通过聚类研究,将其中一些疾病分类。通过前期的发掘,实现了对共病对的数据分析和预测。本课题从FAERS数据库中选择了2012年第4季度至2017年第1季度的所有数据做处理,选取了健康数据科学与信息学观测中心(Observational Health Data Sciences and Informatics,OHDSI)对数据进行了清洗。在数据处理方面,主要完成了数据的归一化,数据的提取、去重等工作。在经过数据的预处理之后,解决了FAERS数据库特有的数据不够清晰的问题。之前对于共病的研究有两个问题,第一是由于数据源的单一性,大多数研究者会针对一种单一的数据源做数据分析;第二是数据分析方法的缺点,前人大多使用统计方法,并且只针对一对数据。在本课题中,使用了FAERS数据库的资源,在数据的广度和复杂性上要强于之前的研究。在方法的选择中,使用关联规则算法+网络图+数据分析的模式,使得得出的结论更有说服力,并针对多重共病对,更加全面。实验结果表明,本课题中得到的网络图分析的结果对比已知的数据是成立的,在数据分析方面,得出了有效的结果。于此同时,通过实验研究,文章提出的网络实现了可视化的功效,对实际医疗有一定作用。课题具有实际意义。