论文部分内容阅读
现代医保数据管理系统已经逐渐成为综合医疗体系系统的重要组成部分,医保数据管理系统已经得到广泛的应用,每天都有包含海量信息的医保数据产生,针对此类数据开展高效的分析活动,进一步获得存在较高价值的决策信息,能够对医师常见病诊疗和医疗合理用药规范的制订起重要作用。但由于其数据存在噪音、不完整、冗余等问题,若不对其有效处理,难以直接用于分析。同时,目前仅用正关联规则对其进行分析的方法也存在一些不足,不能为决策者提供更为全面的信息。因此,本文首先提出了一种改进的基于多支持度的关联规则挖掘算法MMS_FP和一种改进的基于两级多支持度的正负关联规则挖掘算法2LFP_inFS_FS,然后在对某医院的医保数据进行处理的前提下,用改进的2LFP_inFS_FS算法对心脑血管疾病数据、糖尿病数据和类风湿性关节炎数据进行了分析,得到了一些用药之间与疾病之间的正负关联规则并对其进行了分析,结果对医师常见病诊疗和医疗合理用药规范有重要的参考价值。具体如下:1.提出了一种改进的基于多支持度的关联规则挖掘算法——MMS_FP本文提出了一种新的基于多支持度的关联规则挖掘算法MMS_FP,考虑了每个事务发生的概率和频率不同的现实问题,对数据集中的每一项设置不同的支持度,即采用多支持度模型——MMS模型,解决了频繁项集冗余的问题,且使用了FP-Growth算法来实现,所以该改进算法的运行速度比MSapriori快了几十倍,而且可以发现更有价值的频繁项集,为关联规则分析提供更好的支持。2.提出了一种改进的基于两级多支持度的正负关联规则挖掘算法——2LFP_inFS_FS为了挖掘非频繁项集提出了2LS模型,但该模型依然是对整个项集设置两级的单一支持度,忽略了项集中每个事务发生的不同概率和频率问题,而这依然要靠多支持度模型来实现,因此,我们将2LS模型和XMMS模型进行整合,即对项集中的每一项设置两级多支持度,提出了一种新的基于两级多支持度的正负关联规则挖掘算法2LFP_inFS_FS,使用FP-Growth算法实现,同时挖掘频繁和非频繁项集,实验结果表明该算法更高效,然后通过PNARC模型同时得到正负关联规则。3.关联规则在三种疾病数据分析中的应用针对医保数据有噪音、不完整和冗余等特点,本文做了大量数据预处理工作:对数据中的部分空缺值采取忽略元素、人工填写和删除的方式,对数据中的部分信息进行了语义一致化操作,对数据中的多个离散数据进行了规约处理,最后选取了当今社会比较受重视的三种疾病:心脑血管疾病、糖尿病和类风湿性关节炎的数据进行了正负关联规则的挖掘和分析,比如心脑血管疾病中:地西伴和硫酸阿托品的搭配,查阅资料得知地西伴溶于硫酸阿托品会出现沉淀现象,所以这种联合用药搭配是不合理的,不符合医学规定;而卡托普利与地高辛,卡托普利会增加洋地黄类的中毒发生率,不能联合用药,符合医学规定和常识。类似的,我们在糖尿病和类风湿性关节炎的用药中也得出了很多具有研究价值的规则,结果对合理诊疗的判断有重要参考价值。