论文部分内容阅读
摘要:选取某妇幼专科医院门诊病人挂号看诊信息为研究对象,运用大数据挖掘的思想对门诊数据进行ETL预处理,将门诊数据分为三个季度表,采用C#编程实现关联规则中Apriori算法并挖掘出病人就诊科室之间的关联规则。综合三个季度的门诊数据关联规则结果进行对比分析,预测患者就诊行为,为方便病人看诊提供建议,为医院门诊医疗管理提供数据支持和决策依据。
关键词:Apriori算法;关联规则;就诊规律
中图分类号:TP399 文献标识码:A 文章编号:1009-3044(2018)23-0291-03
Abstract: Selecting out-patient information of a doctor-patient in a maternal and child hospital as the research object, using the idea of big data mining to carry out ETL preprocessing outpatient data, dividing the outpatient data into three quarterly tables, using C# programming to realize Apriori algorithm in association rules and mining Outpatient department between the correlation rules. Comprehensive outpatient data association rules for three quarters of the results of the comparative analysis to predict the patient behavior, to facilitate the patient’s advice to provide advice for the hospital outpatient medical management to provide data support and decision-making basis.
Key words: Apriori algorithm; Association Rule; Visiting Rules
1 引言
在婦幼保健院门诊中,医院信息系统积累了大量可供分析的妇幼门诊就诊数据,并且这些数据具有容量更大、质量更优、针对性更强的特点。而关联规则中Apriori算法具有规则简单、方便实用的特点[1],将其用于对医院门诊数据的分析,可以发现隐藏在数据间的就诊科室之间的关联规则及联系的紧密程度,找出对门诊管理有帮助的关键因素,从而有针对性的进行相关的医院建设,将有限的医疗资源向就诊量多、与其它门诊关系最密切的科室倾斜,使医疗资源的配置更加合理,改善医院服务质量,使病人能获得更好的医疗服务。
2 资料与方法
2.1 数据来源
本研究数据来源于某妇幼三甲专科医院,提取2017前三个季度的门诊就诊数据,包括病人病历号、姓名、就诊科室、就诊时间,对门诊数据进行抽取、清洗和转换等预处理,最终分别得到三个季度病人门诊信息。
2.2 研究方法
(1)数据处理
对原始数据进行ETL处理,将门诊数据按就诊时间分为三个季度,最终得到用于分析的三张数据表,每张表格式如表1所示。
(2)Apriori算法基本原理
Apriori算法是一种逐层搜索的迭代式算法,常用于挖掘关联规则的频繁项集,其算法核心思想就是在满足一定支持度的情况下用k项集生成(k 1)项集[2],其实现步骤及算法描述如下:
1)连接步,将频繁项自己与自己进行连接运算。
2)剪枝步,去除候选集项中的不符合要求的候选项,不符合要求指的是这个候选项的子集并非都是频繁项,要遵守上文提到的先验性质。
3)根据支持度计数筛选掉不满足最小支持度数的候选集。
算法:Apriori 算法[2]
输入:数据集D;最小支持度阈值min_sup
输出:D 中的频繁项集L
3 结果分析及讨论
设置最小支持度、最低重要性为0.4,运用图1开发的Apriori数据挖掘工具,对处理后每季度的数据结果进行分析,得到的关联规则分别如表2、表3、表4所示。
综合三个季度的门诊数据关联规则挖掘的结果进行对比分析,得到前三个季度门诊就诊普遍特征和季节性波动特征,并结合医院实际情况对发现的规律进行分析。
(1)门诊综合手术室与妇科门诊关联的概率基本为1,去门诊综合手术室看诊过的患者,一定会看诊过妇科门诊;产科住院门诊和围产保健科都看诊的概率非常高,即这两个科室的关联性非常强;就诊过儿童康复科的患者去过眼科门诊、听力中心的概率较高;老专家门诊与儿科门诊、急诊关联性较高 [3]。听力中心,儿童保健科,眼科门诊这几个科室的关联性较强,此规律从另一个侧面反应医院儿童体检人群及业务开展的稳定性。
(2)一季度日间手术室(门诊)与乳腺科关联性较高,二季度和三季度新出现麻醉疼痛门诊与妇科门诊关联性较高。为方便患者就诊,医院二季度新开设麻醉疼痛门诊,后两个季度麻醉疼痛门诊看诊人次逐渐增加,同一时间段看诊麻醉疼痛门诊与妇科门诊的人次也相应提升。
4 结语
本研究基于C#编程实现Apriori算法并对门诊就诊科室进行关联性挖掘,结合三个季度的数据和得到的关联规则与医院实际情况对比分析,得到的共性规则均能被证实,并且某些规则结合可形成闭合的“就诊路径环”,其结果可以反映门诊科室业务稳定性和布局合理性。另外,新发现的特异性门诊就诊规律可提供给管理决策人员,为加强门诊医疗管理和新老院区科室业务交流提供数据支持和新思路。
参考文献:
[1] 宋小小,陈晓辉,刘冲.关联规则中Apriori算法的研究与改进[J].网络安全技术与应用,2012,3(1):23-25.
[2] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[3] 李准,严少彪,等.关联规则在儿童门诊信息分析中的应用[J].北京:医学信息学杂志,2016(8):76-78.
【通联编辑:王力】
关键词:Apriori算法;关联规则;就诊规律
中图分类号:TP399 文献标识码:A 文章编号:1009-3044(2018)23-0291-03
Abstract: Selecting out-patient information of a doctor-patient in a maternal and child hospital as the research object, using the idea of big data mining to carry out ETL preprocessing outpatient data, dividing the outpatient data into three quarterly tables, using C# programming to realize Apriori algorithm in association rules and mining Outpatient department between the correlation rules. Comprehensive outpatient data association rules for three quarters of the results of the comparative analysis to predict the patient behavior, to facilitate the patient’s advice to provide advice for the hospital outpatient medical management to provide data support and decision-making basis.
Key words: Apriori algorithm; Association Rule; Visiting Rules
1 引言
在婦幼保健院门诊中,医院信息系统积累了大量可供分析的妇幼门诊就诊数据,并且这些数据具有容量更大、质量更优、针对性更强的特点。而关联规则中Apriori算法具有规则简单、方便实用的特点[1],将其用于对医院门诊数据的分析,可以发现隐藏在数据间的就诊科室之间的关联规则及联系的紧密程度,找出对门诊管理有帮助的关键因素,从而有针对性的进行相关的医院建设,将有限的医疗资源向就诊量多、与其它门诊关系最密切的科室倾斜,使医疗资源的配置更加合理,改善医院服务质量,使病人能获得更好的医疗服务。
2 资料与方法
2.1 数据来源
本研究数据来源于某妇幼三甲专科医院,提取2017前三个季度的门诊就诊数据,包括病人病历号、姓名、就诊科室、就诊时间,对门诊数据进行抽取、清洗和转换等预处理,最终分别得到三个季度病人门诊信息。
2.2 研究方法
(1)数据处理
对原始数据进行ETL处理,将门诊数据按就诊时间分为三个季度,最终得到用于分析的三张数据表,每张表格式如表1所示。
(2)Apriori算法基本原理
Apriori算法是一种逐层搜索的迭代式算法,常用于挖掘关联规则的频繁项集,其算法核心思想就是在满足一定支持度的情况下用k项集生成(k 1)项集[2],其实现步骤及算法描述如下:
1)连接步,将频繁项自己与自己进行连接运算。
2)剪枝步,去除候选集项中的不符合要求的候选项,不符合要求指的是这个候选项的子集并非都是频繁项,要遵守上文提到的先验性质。
3)根据支持度计数筛选掉不满足最小支持度数的候选集。
算法:Apriori 算法[2]
输入:数据集D;最小支持度阈值min_sup
输出:D 中的频繁项集L
3 结果分析及讨论
设置最小支持度、最低重要性为0.4,运用图1开发的Apriori数据挖掘工具,对处理后每季度的数据结果进行分析,得到的关联规则分别如表2、表3、表4所示。
综合三个季度的门诊数据关联规则挖掘的结果进行对比分析,得到前三个季度门诊就诊普遍特征和季节性波动特征,并结合医院实际情况对发现的规律进行分析。
(1)门诊综合手术室与妇科门诊关联的概率基本为1,去门诊综合手术室看诊过的患者,一定会看诊过妇科门诊;产科住院门诊和围产保健科都看诊的概率非常高,即这两个科室的关联性非常强;就诊过儿童康复科的患者去过眼科门诊、听力中心的概率较高;老专家门诊与儿科门诊、急诊关联性较高 [3]。听力中心,儿童保健科,眼科门诊这几个科室的关联性较强,此规律从另一个侧面反应医院儿童体检人群及业务开展的稳定性。
(2)一季度日间手术室(门诊)与乳腺科关联性较高,二季度和三季度新出现麻醉疼痛门诊与妇科门诊关联性较高。为方便患者就诊,医院二季度新开设麻醉疼痛门诊,后两个季度麻醉疼痛门诊看诊人次逐渐增加,同一时间段看诊麻醉疼痛门诊与妇科门诊的人次也相应提升。
4 结语
本研究基于C#编程实现Apriori算法并对门诊就诊科室进行关联性挖掘,结合三个季度的数据和得到的关联规则与医院实际情况对比分析,得到的共性规则均能被证实,并且某些规则结合可形成闭合的“就诊路径环”,其结果可以反映门诊科室业务稳定性和布局合理性。另外,新发现的特异性门诊就诊规律可提供给管理决策人员,为加强门诊医疗管理和新老院区科室业务交流提供数据支持和新思路。
参考文献:
[1] 宋小小,陈晓辉,刘冲.关联规则中Apriori算法的研究与改进[J].网络安全技术与应用,2012,3(1):23-25.
[2] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[3] 李准,严少彪,等.关联规则在儿童门诊信息分析中的应用[J].北京:医学信息学杂志,2016(8):76-78.
【通联编辑:王力】