论文部分内容阅读
摘要:随着医院信息系统的普及和规模的扩大,其中蕴藏的大量信息却并没有得到有效利用。对这些数据的挖掘可助医院更高效地对医院资源进行合理分配、管理,提高医疗效率和质量,并为患者带来更及时、舒适的服务。本文尝试使用分类的数据挖掘方法,利用R3.2.0软件对2013年山西省某三甲医院住院病案首页信息进行分类算法建模,并对2014年的医疗费用及住院期长度进行预测,最终得到相关结论及建议。
关键词:病案首页 分类算法 医院管理
一、引言
医院在运营过程中积累了海量病案首页数据,仅利用简单的统计方法无法满足深入研究的需要。而在数据库基础上逐步发展起来的数据挖掘技术,能够发现隐匿在数据背后的那些具有医疗价值的信息。由此,将数据挖掘技术应用在病案首页数据的处理和分析的过程中可能会有新的知识发现,故本文采用了分类的挖掘方法对影响医疗费用与住院期长度的因素进行分类算法建模,并对2014年的样本数据进行预测。
二、文献综述
刘炳麟(2012)在探究住院费用的影响因素时建立了决策树模型,并且在预测医院门诊工作量时采用Microsoft时序模型;李鹏(2009)采用结构方程模型对患者住院费用的影响因素进行分析;张云洋(2009)结合数据的特点采用改进的Apriori算法分析医院的医疗质量情况;付学宇(2009)在选取能够衡量医疗质量指标的基础上构建贝叶斯网络模型探究病案首页数据中潜在的、未知的因果关系。观察先前的研究方向发现,从医院管理的角度进行挖掘的研究并不多,因此结合此次研究的数据,本文尝试建立分类算法模型,预测医疗费用以及住院期长度两个指标,试图帮助医院更高效、合理地配置医疗资源,提高病患收治效益。
三、数据预处理
数据预处理是在对数据进行主要的处理之前进行的一些处理。由于所研究的大多数数据是参差不齐的,所以可能会导致后续的数据分析出现问题,严重时会导致结论偏差较大,故数据预处理是极为必要的,其可以提高数据挖掘模式的质量和效率。
(一)数据预处理
本文数据来自2013与2014两年山西省太原市某三甲医院真实的住院病案首页数据,共计病案数38181条,涉及近160个指标。本文仅选取与研究目的相关的一些指标,并进行隐私过滤、异常值与极端值的处理、属性转换与缺失值的处理。
(二)变量离散化
对于住院期长度、医疗费用等数值型变量,本文进行离散化处理;对于付费方式、户籍所在地等类别变量,本文对其进行赋值。
四、模型的构建
(一)模型的选择
选择模型时,因为贝叶斯分类对指标间独立性要求过高,本文未做考虑。实际操作过程中,本文选取了决策树、随机森林、人工神经网络、支持向量机等四种算法来做研究比较。
(二)训练集的构建
机器学习的分类方法需要有一个已知分类的训练集作为模型学习的基础,为满足分类模型的训练和测试要求,本文对经过预处理的2013年的样本构造五折交叉验证集。
(三)变量的选取
训练集产生后,本文将汇总离散化产生的11个变量数据集读入R软件中,用不同分类模型进行了试算,发现有些变量在有些模型中不参与运算或作用很小,说明这些变量在分类中作用不大。本文采用信息增益的方法进行特征选择,实验结果表明,优化后的变量集对各个分类模型的分类效果(识别精度)均有很大改善。
表1 最终使用变量列表
(四)各算法分类结果比较
1.医疗费用(EIH)为因变量的分类模型结果比较。本文首先使用已得到的训练集和测试集在R中分别在不同的分类模型上进行了具体实现,由于分类的水平值较多,本文只列出训练集与测试集的错分率:
表2 五折交叉验证结果
从表中可以看出,各个模型在训练集上和测试集上的错分率都较低,除决策树测试集以外,均低于10%,且测试集上的错分率均略高于训练集。其中,随机森林的错分率最低。
接着,本文使用以上四种算法对2014年的样本数据组成的预测集进行了预测,结果见表3。
表3 各模型预测结果比较(1)
随机森林模型预测结果与实际数据最为接近,支持向量机的预测结果也较优于其他两类。但是二者的错分率都在5%以上。
2.住院期长度(LOS)为因变量的分类模型结果比较。与1中的分类方法相同,本文直接列出各分类算法的预测结果比较:
表4 各模型预测结果比较(2)
支持向量机与随机森林的预测结果与实际数据最为接近,但是二者也都具有5%以上的错分率。就医情况随着年份的增长变化较大,如人们的收入增高,对就医与医疗效果的质量更为看重,因此投入更多;亦或因为现行医疗体制存在不健全的地方,过度医疗的现象屡禁不止。
五、本文的不足与建议
(一)本文的不足
1.本文所采用的数据均来自于病案首页的信息,数据不够丰富,得到的分类模型并不能更高效地对未分类样本进行预测。
2.医疗情况随着技术的进步以及人们对待医疗的态度变化较快,故采用前一年的数据建模,泛化能力并不强,分类预测结果一般偏低。
3.数据量不足。本文只取一家三甲医院的数据,各医院的专长以及构成的不同可能影响对总体的判断,因此预测仅限于同一医院。
4.部分变量缺失。本文数据取自某三甲医院的病案首页,其一些关键信息虽在病案首页体现,但本文研究时并未得到这些数据,在一定程度上影响了结果的可靠度与深度。
5.对患者及医院的行为分析还不够深入,一定程度上影响了变量的构建。
这些问题都有待在今后更深入的研究中逐步完善、改进。
(二)对分类算法在医院管理中运用的建议
1.通过对大量病例信息的统计与挖掘,建立病例组合,对已有的大量相似病案聚类,当有新患者入院时,可找到与其最相似的病案,因此可以提前告知患者大概的费用、住院时间和治疗过程等,可起到辅助诊断的作用,并在一定程度上可有效监督医疗费用的上涨问题。
2.逐步建立基于山西省的病案管理系统,并结合数据挖掘技术实现辅助诊断以及合理管理医院资源、提高病患收治效益的目的。
3.完善现有的法律、法规、制度,并对所研究的数据进行加密处理,以保护被调查者的隐私。
参考文献:
[1]刘炳麟.数据挖掘技术在病案信息管理中的应用研究[D].山东大学,2012.
[2]张文彤,竺丽明,王见义,鲍培芬.基于BP神经网络的中医医院住院费用影响因素分析[J].中华医院管理杂志,2005(03):20-24.
[3]陈虹.某军医大学附属医院住院费用结构、影响因素及费用标准研究[D].第三军医大学,2008.
[4]罗仁夏,吴彬.医疗保险住院费用调查及多因素分析[J].中国医院统计,2006(01):47-49.
(作者单位:山西财经大学统计学院)
关键词:病案首页 分类算法 医院管理
一、引言
医院在运营过程中积累了海量病案首页数据,仅利用简单的统计方法无法满足深入研究的需要。而在数据库基础上逐步发展起来的数据挖掘技术,能够发现隐匿在数据背后的那些具有医疗价值的信息。由此,将数据挖掘技术应用在病案首页数据的处理和分析的过程中可能会有新的知识发现,故本文采用了分类的挖掘方法对影响医疗费用与住院期长度的因素进行分类算法建模,并对2014年的样本数据进行预测。
二、文献综述
刘炳麟(2012)在探究住院费用的影响因素时建立了决策树模型,并且在预测医院门诊工作量时采用Microsoft时序模型;李鹏(2009)采用结构方程模型对患者住院费用的影响因素进行分析;张云洋(2009)结合数据的特点采用改进的Apriori算法分析医院的医疗质量情况;付学宇(2009)在选取能够衡量医疗质量指标的基础上构建贝叶斯网络模型探究病案首页数据中潜在的、未知的因果关系。观察先前的研究方向发现,从医院管理的角度进行挖掘的研究并不多,因此结合此次研究的数据,本文尝试建立分类算法模型,预测医疗费用以及住院期长度两个指标,试图帮助医院更高效、合理地配置医疗资源,提高病患收治效益。
三、数据预处理
数据预处理是在对数据进行主要的处理之前进行的一些处理。由于所研究的大多数数据是参差不齐的,所以可能会导致后续的数据分析出现问题,严重时会导致结论偏差较大,故数据预处理是极为必要的,其可以提高数据挖掘模式的质量和效率。
(一)数据预处理
本文数据来自2013与2014两年山西省太原市某三甲医院真实的住院病案首页数据,共计病案数38181条,涉及近160个指标。本文仅选取与研究目的相关的一些指标,并进行隐私过滤、异常值与极端值的处理、属性转换与缺失值的处理。
(二)变量离散化
对于住院期长度、医疗费用等数值型变量,本文进行离散化处理;对于付费方式、户籍所在地等类别变量,本文对其进行赋值。
四、模型的构建
(一)模型的选择
选择模型时,因为贝叶斯分类对指标间独立性要求过高,本文未做考虑。实际操作过程中,本文选取了决策树、随机森林、人工神经网络、支持向量机等四种算法来做研究比较。
(二)训练集的构建
机器学习的分类方法需要有一个已知分类的训练集作为模型学习的基础,为满足分类模型的训练和测试要求,本文对经过预处理的2013年的样本构造五折交叉验证集。
(三)变量的选取
训练集产生后,本文将汇总离散化产生的11个变量数据集读入R软件中,用不同分类模型进行了试算,发现有些变量在有些模型中不参与运算或作用很小,说明这些变量在分类中作用不大。本文采用信息增益的方法进行特征选择,实验结果表明,优化后的变量集对各个分类模型的分类效果(识别精度)均有很大改善。
表1 最终使用变量列表
(四)各算法分类结果比较
1.医疗费用(EIH)为因变量的分类模型结果比较。本文首先使用已得到的训练集和测试集在R中分别在不同的分类模型上进行了具体实现,由于分类的水平值较多,本文只列出训练集与测试集的错分率:
表2 五折交叉验证结果
从表中可以看出,各个模型在训练集上和测试集上的错分率都较低,除决策树测试集以外,均低于10%,且测试集上的错分率均略高于训练集。其中,随机森林的错分率最低。
接着,本文使用以上四种算法对2014年的样本数据组成的预测集进行了预测,结果见表3。
表3 各模型预测结果比较(1)
随机森林模型预测结果与实际数据最为接近,支持向量机的预测结果也较优于其他两类。但是二者的错分率都在5%以上。
2.住院期长度(LOS)为因变量的分类模型结果比较。与1中的分类方法相同,本文直接列出各分类算法的预测结果比较:
表4 各模型预测结果比较(2)
支持向量机与随机森林的预测结果与实际数据最为接近,但是二者也都具有5%以上的错分率。就医情况随着年份的增长变化较大,如人们的收入增高,对就医与医疗效果的质量更为看重,因此投入更多;亦或因为现行医疗体制存在不健全的地方,过度医疗的现象屡禁不止。
五、本文的不足与建议
(一)本文的不足
1.本文所采用的数据均来自于病案首页的信息,数据不够丰富,得到的分类模型并不能更高效地对未分类样本进行预测。
2.医疗情况随着技术的进步以及人们对待医疗的态度变化较快,故采用前一年的数据建模,泛化能力并不强,分类预测结果一般偏低。
3.数据量不足。本文只取一家三甲医院的数据,各医院的专长以及构成的不同可能影响对总体的判断,因此预测仅限于同一医院。
4.部分变量缺失。本文数据取自某三甲医院的病案首页,其一些关键信息虽在病案首页体现,但本文研究时并未得到这些数据,在一定程度上影响了结果的可靠度与深度。
5.对患者及医院的行为分析还不够深入,一定程度上影响了变量的构建。
这些问题都有待在今后更深入的研究中逐步完善、改进。
(二)对分类算法在医院管理中运用的建议
1.通过对大量病例信息的统计与挖掘,建立病例组合,对已有的大量相似病案聚类,当有新患者入院时,可找到与其最相似的病案,因此可以提前告知患者大概的费用、住院时间和治疗过程等,可起到辅助诊断的作用,并在一定程度上可有效监督医疗费用的上涨问题。
2.逐步建立基于山西省的病案管理系统,并结合数据挖掘技术实现辅助诊断以及合理管理医院资源、提高病患收治效益的目的。
3.完善现有的法律、法规、制度,并对所研究的数据进行加密处理,以保护被调查者的隐私。
参考文献:
[1]刘炳麟.数据挖掘技术在病案信息管理中的应用研究[D].山东大学,2012.
[2]张文彤,竺丽明,王见义,鲍培芬.基于BP神经网络的中医医院住院费用影响因素分析[J].中华医院管理杂志,2005(03):20-24.
[3]陈虹.某军医大学附属医院住院费用结构、影响因素及费用标准研究[D].第三军医大学,2008.
[4]罗仁夏,吴彬.医疗保险住院费用调查及多因素分析[J].中国医院统计,2006(01):47-49.
(作者单位:山西财经大学统计学院)