论文部分内容阅读
摘 要:目前,医院对电子病历中信息的利用率还很低,缺乏对数据的挖掘和知识发现。关联规则挖掘能够发现病历数据各属性间的关联关系,对疾病的诊断、治疗和医学研究有着重要的意义。
关键词:关联规则;电子病历;糖尿病
中图分类号:TP311.13
电子病历中记录着重要的医学信息,这些信息对于医学研究、疾病的诊断和治疗有着非常重要的价值。数据挖掘技术通过分析不同病人的病因、治疗方法和疾病的发展趋势,为医生的治疗方案提供决策支持。
1 关联规则挖掘技术
1.1 关联规则的概念
关联规则就是反映大量数据集中的各种数据项之间的联系和关联程度,是数据挖掘技术中的一个重要的研究方向。关联规则主要通过支持度和置信度两个指标进行衡量。置信度表示规则的强度,是对关联规则准确度的衡量;支持度是对关联规则重要性的描述,反映规则的频度。通常规则的支持度越高,说明关联规则越重要;关联规则的置信度越高,说明关联规则的可靠性越高。根据分类的标准不同,关联规则可以分为三类:
(1)根据数据变量的类型分类
关联规则处理的变量包括数值型和布尔型。数值型变量是连续型变量,关联规则对数值型字段进行处理时将其进行动态的分割,或者直接对原始的数据进行处理,可以和多维关联或多层关联规则结合起来分析。布尔型变量是离散型的,因此布尔型关联规则处理的值都是种类化的、离散的,显示了这些变量之间的关系。
(2)根据数据的抽象层次分类
关联规则的内容在同一个层次上,则此规则为单层关联规则,若涉及到多个不同的抽象层次,则为多层关联规则。
(3)根据数据维数分类
如果规则中只涉及数据的一个维度,它就是一个单维关联规则,单维关联规则只处理数据的单个属性中的一些关系;多维关联规则从数据的多个维度进行处理和分析,涉及到各个属性之间的某些关系。
1.2 关联规则算法
关联规则算法在很多种,其中以FP- growth算法和Apriori算法最为出名。
Apriori算法是基于布尔关联规则挖掘算法,其基本原理是将逐层迭代探索,找出最优解,即通过K项集来探索(k+1)项数据集,从而获得所在的频繁数据项集合。Apriori算法实现过程简单,但是算法的效率非常低。
FP-growth算法是对Apriori算法的改进,它提出分而治之的策略,不产生候选挖掘频繁项集,从而来提高算法的效率。FP-growth算法在首次扫描完成后,把数据库中的频集压缩进一棵频繁模式树,用树中的各节点的关系表示其关联信息,然后再把这棵频繁模式树分解成一些条件库,对这些条件库分别进行挖掘。
2 关联规则在电子病历中的应用
2.1 电子病历数据的特点
电子病历是医生在治疗过程中记录病人的病情、治疗过程和病情发展趋势等资料的一种总和,这些信息可以是文字、影像、切片、图表和符号等形式。电子病历是医生分析病情的主要依据,也是制定治疗方案的重要参考资料,它为医生提高了准确、及时、完善的病历信息,在病人的诊断和治疗过程起着重要的作用。
2.2 病历数据的关联规则挖掘
本文对糖尿病及并发症的电子病历进行关联规则挖掘,数据来源于海口医学院附属医院的糖尿病及并发症人的电子病历,共收集病人的诊断、治疗记录总数共13541条。对电子病历中的数据进行初步的整理和统计,得出糖尿病可能引发的并发症的信息如下:糖尿病:7021;高血压4380;眼病2140;糖尿病并发眼病2034;糖尿病并发高血压1934;高血压并发眼病540。为了便于规则发现,将病症进行符号化处理:记高血压病为G,眼病为E,糖尿病为T。
运用FP-growth算法进行数据挖掘,设置关联规则的最小支持度为0.25,最小置信度为0.55,挖掘出以下关联规则,如表1所示。
对得到的关联规则进行医学解释,得出以下结论:
(1)糖尿病与高血压、眼病之间有一定的关联关系。
(2)在统计的病历中,有8%的病人同时患有糖尿病和高血压,患有高血压的病人有42.12%的可能并发糖尿病;患有糖尿病的病人有50.78%的可能会有高血压。
(3)在统计的病历中,有4%的病人同时患有糖尿病和眼病,患有高血压的病人有20.13%的可能并发眼病;患有眼病有15.4%的可能会有糖尿病。
(4)有1.2%的病人同时患有糖尿病、高血压和眼病,患有高血压和眼病的病人有67%的可能会患有糖尿病;患有糖尿病的病人有8.02%的可能会并发患有高血压和眼病。
3 结束语
文中利用FP-growth算法对糖尿病人的电子病历进行关联规则分析,挖掘出糖尿病可能引发的并发症,以及并发病发生的概率,为医生进行病情诊断提供决策信息,具有一定的实用价值。
参考文献:
[1]刘秀娜.关联规则挖掘在电子病历分析中的应用研究[J].内蒙古科技大学学报,2010,12:23-25.
[2]丁卫平,祁恒.基于关联规则的电子病历挖掘算法研究与应用[J].微电子学与计算机,2007,03:69-76.
作者简介:伍鼎韡,男,海南海口人,本科在读生,研究方向:数据挖掘及金属材料机械性能;通讯作者:伍强(1969.04-),男,海南海口人,硕士,副教授,高级工程师,研究方向:数据挖掘、口腔设备学教学与研究。
作者单位:华中科技大学机械学院11级机械2班,武汉 430074;海南医学院附属医院设备科,海口 570102;海南科技职业学院,海口 570216;海南医学院,海口 571199
基金项目:海南省自然科学基金资助项目(NO:310154)。
关键词:关联规则;电子病历;糖尿病
中图分类号:TP311.13
电子病历中记录着重要的医学信息,这些信息对于医学研究、疾病的诊断和治疗有着非常重要的价值。数据挖掘技术通过分析不同病人的病因、治疗方法和疾病的发展趋势,为医生的治疗方案提供决策支持。
1 关联规则挖掘技术
1.1 关联规则的概念
关联规则就是反映大量数据集中的各种数据项之间的联系和关联程度,是数据挖掘技术中的一个重要的研究方向。关联规则主要通过支持度和置信度两个指标进行衡量。置信度表示规则的强度,是对关联规则准确度的衡量;支持度是对关联规则重要性的描述,反映规则的频度。通常规则的支持度越高,说明关联规则越重要;关联规则的置信度越高,说明关联规则的可靠性越高。根据分类的标准不同,关联规则可以分为三类:
(1)根据数据变量的类型分类
关联规则处理的变量包括数值型和布尔型。数值型变量是连续型变量,关联规则对数值型字段进行处理时将其进行动态的分割,或者直接对原始的数据进行处理,可以和多维关联或多层关联规则结合起来分析。布尔型变量是离散型的,因此布尔型关联规则处理的值都是种类化的、离散的,显示了这些变量之间的关系。
(2)根据数据的抽象层次分类
关联规则的内容在同一个层次上,则此规则为单层关联规则,若涉及到多个不同的抽象层次,则为多层关联规则。
(3)根据数据维数分类
如果规则中只涉及数据的一个维度,它就是一个单维关联规则,单维关联规则只处理数据的单个属性中的一些关系;多维关联规则从数据的多个维度进行处理和分析,涉及到各个属性之间的某些关系。
1.2 关联规则算法
关联规则算法在很多种,其中以FP- growth算法和Apriori算法最为出名。
Apriori算法是基于布尔关联规则挖掘算法,其基本原理是将逐层迭代探索,找出最优解,即通过K项集来探索(k+1)项数据集,从而获得所在的频繁数据项集合。Apriori算法实现过程简单,但是算法的效率非常低。
FP-growth算法是对Apriori算法的改进,它提出分而治之的策略,不产生候选挖掘频繁项集,从而来提高算法的效率。FP-growth算法在首次扫描完成后,把数据库中的频集压缩进一棵频繁模式树,用树中的各节点的关系表示其关联信息,然后再把这棵频繁模式树分解成一些条件库,对这些条件库分别进行挖掘。
2 关联规则在电子病历中的应用
2.1 电子病历数据的特点
电子病历是医生在治疗过程中记录病人的病情、治疗过程和病情发展趋势等资料的一种总和,这些信息可以是文字、影像、切片、图表和符号等形式。电子病历是医生分析病情的主要依据,也是制定治疗方案的重要参考资料,它为医生提高了准确、及时、完善的病历信息,在病人的诊断和治疗过程起着重要的作用。
2.2 病历数据的关联规则挖掘
本文对糖尿病及并发症的电子病历进行关联规则挖掘,数据来源于海口医学院附属医院的糖尿病及并发症人的电子病历,共收集病人的诊断、治疗记录总数共13541条。对电子病历中的数据进行初步的整理和统计,得出糖尿病可能引发的并发症的信息如下:糖尿病:7021;高血压4380;眼病2140;糖尿病并发眼病2034;糖尿病并发高血压1934;高血压并发眼病540。为了便于规则发现,将病症进行符号化处理:记高血压病为G,眼病为E,糖尿病为T。
运用FP-growth算法进行数据挖掘,设置关联规则的最小支持度为0.25,最小置信度为0.55,挖掘出以下关联规则,如表1所示。
对得到的关联规则进行医学解释,得出以下结论:
(1)糖尿病与高血压、眼病之间有一定的关联关系。
(2)在统计的病历中,有8%的病人同时患有糖尿病和高血压,患有高血压的病人有42.12%的可能并发糖尿病;患有糖尿病的病人有50.78%的可能会有高血压。
(3)在统计的病历中,有4%的病人同时患有糖尿病和眼病,患有高血压的病人有20.13%的可能并发眼病;患有眼病有15.4%的可能会有糖尿病。
(4)有1.2%的病人同时患有糖尿病、高血压和眼病,患有高血压和眼病的病人有67%的可能会患有糖尿病;患有糖尿病的病人有8.02%的可能会并发患有高血压和眼病。
3 结束语
文中利用FP-growth算法对糖尿病人的电子病历进行关联规则分析,挖掘出糖尿病可能引发的并发症,以及并发病发生的概率,为医生进行病情诊断提供决策信息,具有一定的实用价值。
参考文献:
[1]刘秀娜.关联规则挖掘在电子病历分析中的应用研究[J].内蒙古科技大学学报,2010,12:23-25.
[2]丁卫平,祁恒.基于关联规则的电子病历挖掘算法研究与应用[J].微电子学与计算机,2007,03:69-76.
作者简介:伍鼎韡,男,海南海口人,本科在读生,研究方向:数据挖掘及金属材料机械性能;通讯作者:伍强(1969.04-),男,海南海口人,硕士,副教授,高级工程师,研究方向:数据挖掘、口腔设备学教学与研究。
作者单位:华中科技大学机械学院11级机械2班,武汉 430074;海南医学院附属医院设备科,海口 570102;海南科技职业学院,海口 570216;海南医学院,海口 571199
基金项目:海南省自然科学基金资助项目(NO:310154)。