数据挖掘在医院管理中的应用

来源 :科学导报 | 被引量 : 0次 | 上传用户:andymei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘要:随着医院信息系统的普及和规模的扩大,其中蕴藏的大量信息却并没有得到有效利用。对这些数据的挖掘可助医院更高效地对医院资源进行合理分配、管理,提高医疗效率和质量,并为患者带来更及时、舒适的服务。本文尝试使用分类的数据挖掘方法,利用R3.2.0软件对2013年山西省某三甲医院住院病案首页信息进行分类算法建模,并对2014年的医疗费用及住院期长度进行预测,最终得到相关结论及建议。
   关键词:病案首页 分类算法 医院管理
  
   一、引言
   医院在运营过程中积累了海量病案首页数据,仅利用简单的统计方法无法满足深入研究的需要。而在数据库基础上逐步发展起来的数据挖掘技术,能够发现隐匿在数据背后的那些具有医疗价值的信息。由此,将数据挖掘技术应用在病案首页数据的处理和分析的过程中可能会有新的知识发现,故本文采用了分类的挖掘方法对影响医疗费用与住院期长度的因素进行分类算法建模,并对2014年的样本数据进行预测。
   二、文献综述
   刘炳麟(2012)在探究住院费用的影响因素时建立了决策树模型,并且在预测医院门诊工作量时采用Microsoft时序模型;李鹏(2009)采用结构方程模型对患者住院费用的影响因素进行分析;张云洋(2009)结合数据的特点采用改进的Apriori算法分析医院的医疗质量情况;付学宇(2009)在选取能够衡量医疗质量指标的基础上构建贝叶斯网络模型探究病案首页数据中潜在的、未知的因果关系。观察先前的研究方向发现,从医院管理的角度进行挖掘的研究并不多,因此结合此次研究的数据,本文尝试建立分类算法模型,预测医疗费用以及住院期长度两个指标,试图帮助医院更高效、合理地配置医疗资源,提高病患收治效益。
   三、数据预处理
   数据预处理是在对数据进行主要的处理之前进行的一些处理。由于所研究的大多数数据是参差不齐的,所以可能会导致后续的数据分析出现问题,严重时会导致结论偏差较大,故数据预处理是极为必要的,其可以提高数据挖掘模式的质量和效率。
   (一)数据预处理
   本文数据来自2013与2014两年山西省太原市某三甲医院真实的住院病案首页数据,共计病案数38181条,涉及近160个指标。本文仅选取与研究目的相关的一些指标,并进行隐私过滤、异常值与极端值的处理、属性转换与缺失值的处理。
   (二)变量离散化
   对于住院期长度、医疗费用等数值型变量,本文进行离散化处理;对于付费方式、户籍所在地等类别变量,本文对其进行赋值。
   四、模型的构建
   (一)模型的选择
   选择模型时,因为贝叶斯分类对指标间独立性要求过高,本文未做考虑。实际操作过程中,本文选取了决策树、随机森林、人工神经网络、支持向量机等四种算法来做研究比较。
   (二)训练集的构建
   机器学习的分类方法需要有一个已知分类的训练集作为模型学习的基础,为满足分类模型的训练和测试要求,本文对经过预处理的2013年的样本构造五折交叉验证集。
   (三)变量的选取
   训练集产生后,本文将汇总离散化产生的11个变量数据集读入R软件中,用不同分类模型进行了试算,发现有些变量在有些模型中不参与运算或作用很小,说明这些变量在分类中作用不大。本文采用信息增益的方法进行特征选择,实验结果表明,优化后的变量集对各个分类模型的分类效果(识别精度)均有很大改善。
   表1 最终使用变量列表
   (四)各算法分类结果比较
   1.医疗费用(EIH)为因变量的分类模型结果比较。本文首先使用已得到的训练集和测试集在R中分别在不同的分类模型上进行了具体实现,由于分类的水平值较多,本文只列出训练集与测试集的错分率:
   表2 五折交叉验证结果
   从表中可以看出,各个模型在训练集上和测试集上的错分率都较低,除决策树测试集以外,均低于10%,且测试集上的错分率均略高于训练集。其中,随机森林的错分率最低。
   接着,本文使用以上四种算法对2014年的样本数据组成的预测集进行了预测,结果见表3。
   表3 各模型预测结果比较(1)
   随机森林模型预测结果与实际数据最为接近,支持向量机的预测结果也较优于其他两类。但是二者的错分率都在5%以上。
   2.住院期长度(LOS)为因变量的分类模型结果比较。与1中的分类方法相同,本文直接列出各分类算法的预测结果比较:
   表4 各模型预测结果比较(2)
   支持向量机与随机森林的预测结果与实际数据最为接近,但是二者也都具有5%以上的错分率。就医情况随着年份的增长变化较大,如人们的收入增高,对就医与医疗效果的质量更为看重,因此投入更多;亦或因为现行医疗体制存在不健全的地方,过度医疗的现象屡禁不止。
   五、本文的不足与建议
   (一)本文的不足
   1.本文所采用的数据均来自于病案首页的信息,数据不够丰富,得到的分类模型并不能更高效地对未分类样本进行预测。
   2.医疗情况随着技术的进步以及人们对待医疗的态度变化较快,故采用前一年的数据建模,泛化能力并不强,分类预测结果一般偏低。
   3.数据量不足。本文只取一家三甲医院的数据,各医院的专长以及构成的不同可能影响对总体的判断,因此预测仅限于同一医院。
   4.部分变量缺失。本文数据取自某三甲医院的病案首页,其一些关键信息虽在病案首页体现,但本文研究时并未得到这些数据,在一定程度上影响了结果的可靠度与深度。
   5.对患者及医院的行为分析还不够深入,一定程度上影响了变量的构建。
   这些问题都有待在今后更深入的研究中逐步完善、改进。
   (二)对分类算法在医院管理中运用的建议
   1.通过对大量病例信息的统计与挖掘,建立病例组合,对已有的大量相似病案聚类,当有新患者入院时,可找到与其最相似的病案,因此可以提前告知患者大概的费用、住院时间和治疗过程等,可起到辅助诊断的作用,并在一定程度上可有效监督医疗费用的上涨问题。
   2.逐步建立基于山西省的病案管理系统,并结合数据挖掘技术实现辅助诊断以及合理管理医院资源、提高病患收治效益的目的。
   3.完善现有的法律、法规、制度,并对所研究的数据进行加密处理,以保护被调查者的隐私。
  参考文献:
   [1]刘炳麟.数据挖掘技术在病案信息管理中的应用研究[D].山东大学,2012.
   [2]张文彤,竺丽明,王见义,鲍培芬.基于BP神经网络的中医医院住院费用影响因素分析[J].中华医院管理杂志,2005(03):20-24.
   [3]陈虹.某军医大学附属医院住院费用结构、影响因素及费用标准研究[D].第三军医大学,2008.
   [4]罗仁夏,吴彬.医疗保险住院费用调查及多因素分析[J].中国医院统计,2006(01):47-49.
  (作者单位:山西财经大学统计学院)
其他文献
日前,教育部发布通告称,2015年至少18所高校申请改名,大多从学院更名为大学。而相关数据显示,过去5年有257所高校更名。更名较多的均为高考报名人数在45万以上的高考大省。5年来高校更名最多的为湖北省和辽宁省,达17所,黑龙江、河北等紧随其后。   很多大学生的录取通知书和毕业证书上的名字完全对不上,甚至有人嘲笑这些学校“换名比翻书还快”。相较国外高校,中国大学的更名速度着实有些吓人。   根据
期刊
如今,小小的创可贴被许多人当成了“万金油”,不管大伤小伤,伤口是深是浅,全部一贴了之。殊不知,有些伤口使用创可贴只会加重感染,贻误病情。   创可贴主要由苯扎氯铵、弹性织物、胶黏剂、无纺吸收垫和PE隔离膜构成,其与伤口接触的表面有透气纤维,伸展性好,有止血、广谱杀菌的作用,并且不黏连伤口,可以减少感染的机会。因此,皮肤受到外伤、出现流血的小伤口时,创可贴的确能起到止血、护创的作用。但是,创可贴只适
期刊
近日,《自然》杂志发表的一则利用小鼠和猪进行的研究显示,哺乳动物在心脏病发作后会损失数量显著的心肌细胞,这些细胞缺乏自我修复能力。但一直以来,很少有人知道限制心肌再生的因素有哪些。  美国加州斯坦福大学的Pilar Ruiz-Lozano和研究团队发现,在健康心脏中,Fstl1蛋白主要在心外膜(一层包裹住心脏的膜)中表达。然而心脏病发作后,心外膜中的Fstl1蛋白表达会缺失。研究人员在受损的小鼠和
期刊
美国斯坦福大学研究人员日前制造出一种有弹性、可变色的压力敏感材料,它是迄今最接近变色龙皮肤的人造材料。用不同力度触摸这种电子皮肤,它会改变颜色。研究人员指出,将来这种电子皮肤在交互式可穿戴设备、人造义肢、智能机器人等方面有着广泛应用。   新电子皮肤主要由两个部分组成:弹性微结构聚合材料和弹性电致变色聚合材料,前者能随压力改变电压,后者能随电压变化而变红或变蓝。论文第一作者、斯坦福大学的周河秀说,
期刊
中国正在迎来拼抢“科技红利”的时代:无论是国家领导人还是田间地头的农民,都已经认识到科技创新的重要性;从中央到地方,鼓励科技创新、吸引高层次科研人才的政策正在密集出台;从北京中关村创业大街的人丁兴旺,到上海建设“全球科创中心”的战略雄心,到处都能感受到当前这股科技创新的热度……   不过,新华每日电讯记者调查发现,虽然很多科研院所在新常态下由冷清变红火,中国企业在科技创新方面仍处于配角的地位,尤
期刊
(上接A1版)太钢始终坚持把技术创新作为原动力,依靠科技支撑推动产品向特色化和高端化发展。目前,已经形成了包括创新文化、体制机制、人才培养、创新平台、研发投入在内的技术创新链,技术创新已经成为推动太钢转型跨越发展的“引擎”和内在驱动力。   在创新文化建设上,将“不断创新”作为企业重要的核心价值观,坚持创新驱动战略,营造“闻新则喜、闻新则动、以新制胜、鼓励创新、宽容失败、反对守成”的创新文化,大
期刊
她是出生在五台山脚下清水河畔的农家妇女,看起来与当地土生土长的普通女性没有两样,但她干出的一番“大事”让人们不由得竖起大拇指。她依靠着五台山得天独厚的地理优势,发展小杂粮产品,带动当地老百姓订单式种植,将回收、加工、出售一条龙服务全面完善。如今,在山西乃至全国的优秀农产品展销会上经常能看到她的身影。她就是山西五台县北高洪口村清水河玉米加工专业合作社董事长张玉双。  农家食品备受欢迎   20多年前
期刊
全球气候变暖已成为国际社会关注的焦点问题。它严重影响了人类环境和自然生态,导致水资源失衡、农业减产、生态系统严重损害,对人类社会可持续发展带来了巨大冲击。政府间气候变化专门委员会(IPCC)全球气候变化研究第四次评估报告表明:气候变暖的原因除了自然因素影响以外,主要是归因于人类活动,特别是与人类活动中排放二氧化碳的程度密切相关。因此,低碳消费方式受到了世界各国的关注与重视。  “低碳经济”是经济发
期刊
随着人口的激增、经济的发展和人类生活水平的快速提升,地球上的传统能源正在走向枯竭,生态环境也正呈现逐步恶化之态势。   被动顺从这一趋势,人类所赖以生存的地球必定难以再哺育不断增加的人类,更难以满足人类不断提高的物质生活水平的需要。面对这一挑战,人类开始了行动,而倡导低碳的生活方式则成为了各国政府和民众的自觉选择。   节能减排、减少碳排放,已经不是一个国家一个地区的私事,而是整个人类共同面临的严
期刊
美国科学家发明了一种“声学遗传学”新技术,能用超声波有选择地激活大脑、心脏和其他组织中的细胞和分子。这种新技术使用了与医学超声影像同类的超声波,但比以光学为基础的传统方法可能更具优势。相关论文发表在9月15日出版的《自然·通讯》杂志上。   论文高级作者、索尔克生物研究所分子神经生物学实验室副教授斯瑞肯斯·查拉萨尼表示,光学遗传学和声学遗传学两种方法在将来对人类疾病治疗中都会作用非凡。但在真正应用
期刊