论文部分内容阅读
随着基于关系结构的传统数据库技术广泛地应用于信息化时代的各个领域,各种复杂的数据库系统纷纷被建立,由计算机代替了手工操作,极大提高了人们的工作效率。随着关系数据库和各类信息系统应用的年深日久,在数据库系统中积累了大量的业务数据,并且由于业务应用的深入数据量还在日益增加。当前社会的市场竞争日趋激烈,使得医疗行业对于数据库的要求不仅仅停留于数据处理层面,而逐渐向数据的深层次分析与利用的方向转变。但如果没有强大的数据分析工具对现有数据库中的数据进行挖掘分析,而单凭目前数据库的分析查询功能以及各业务系统的的能力,是无法发现并提取这些海量数据中所蕴含的知识与规律的。因此为了满足日益增长的对数据进行深层次利用的需要,数据挖掘与数据仓库技术应运而生,它们能够对现有的海量数据进行深层次的知识提取和经验总结,并获取对管理决策有用的信息。目前这些技术广泛的运用于金融业(如银行、保险)、零售业(超级市场)以及电信业等商业领域,但是在医疗卫生领域还处于摸索阶段,对此我们进行了大胆的尝试,对这一领域进行研究,在医院医保费用分析中采用了数据挖掘技术来产生对医保费用管理工作有意义的规则集。现在国内许多医院都建立了自己的医院信息系统(HIS系统),甚至有些大型医院都拥有了包括HIS系统、图像存储与传输系统(PACS)以及实验室信息系统(LIS)等配套关联的信息系统在内的医院综合信息系统。HIS系统应用复杂,经过多年的运行,现有的业务数据库中包含的不仅仅是大量的病人基本信息,还包含了病人的费用信息以及临床生理信息,影像图片信息等等。特别是医保等新兴医疗方式不断涌现并逐渐占据重要地位,如何从现有的海量数据中提取出对于医院临床医疗、学科建设、决策管理等多方面具有指导意义的知识与经验,帮助医院取得竞争优势,成为了医院工作中的一个重要任务。我们采用数据挖掘与数据仓库技术对医院现有的历史数据进行分析成为了一个必然趋势,这也正是医院信息化建设所面临的新课题。随着医疗改革的深入,国家大力普及医保的保障范围、努力提高医保的保障水平,医保病人在医院病人中占的比例越来越高,医保收入在医院的营业收入中占的比重也越来越大,目前医院医保管理所面临的问题有:如何合理的控制医保病人医疗费用的上涨,同时又尽可能的为医保病人提供完善的医疗服务,降低医院的垫支压力;如何制定科学、合理的医保定额指标,合理分配医保返回资源,调动科室积极性促使科室主动贯彻医保政策。基于本课题的研究,我们提取了医院历年来与医保病人相关的各类信息,建立了基于费用分析为主题的数据仓库,在数据仓库建立过程中,对业务数据的数据抽取、数据清洗、数据转换、数据加载等一系列数据准备的过程进行了详细阐述,并建立了包括时间维、科室维、医生维、诊断维、地址维、性别维、年龄维、身份维等在内的多种分析维度以及与费用相关的事实表,建立了以医保费用分析为主题的星型模式的数据仓库。在本课题中数据源分别来自于医院信息系统(HIS)与医保信息系统(PJ3)这两个异构数据源,面临着描述同一种事物时存在着不同的表达方式,或者数据缺失、数据重复等情况,如果采用手工筛选的方式将无法完成这些大量的数据清洗工作。数据准备的工作是建立挖掘系统的过程中重要的部分,它所花费的时间与精力也最多,而在数据准备的工作中数据清洗又是其中的重点内容。数据清洗将从业务数据库中提取出来的数据“干净地”导入到数据仓库中,数据清洗工作的好坏将直接影响到数据挖掘的质量和效率,直接关系着数据挖掘的结果。针对这一课题,我们设计了自动数据清洗的方式。其主要工作是:将HIS系统与PJ3系统这两个异构数据源对其中数据的不规范性和二义性以及重复和不完整等问题进行了数据清洗,经过一段时间的跟踪,我们记录下通过自动数据清洗解决了以下几个方面的问题:1、自动筛选出缺少住院号的医保记录。2、自动筛选出数据中住院号与姓名不匹配的记录。3、病人ID号与住院号在两个数据源中不匹配的记录。4、数据中科室错误的记录,包含没有科室信息以及转科信息等。通过这种自动筛选的数据清洗方式,能够有效的提取拦截有问题的数据,加快了数据清洗的时间,保证了数据挖掘的质量。本课题通过对医院历年医保病人数据采用数据挖掘的方法,使用关联规则中的Apriori算法实现了对医保费用与相关因素(如医保病人身份、科室、医生、诊断、住院天数、地域等)间的规则挖掘,得出了医保费用分析的规则集。利用该规则集进行分析我们可以看出与医保病人费用关联最大的是住院天数和特定出院科室这两个因素的组合,规则集中前5条规则的匹配模式是对医保费用影响最大的因素,今后对于具有这些属性的医保病人应该给予较高的关注,一方面在满足病人医疗需求的前提下尽量避免超出定额情况的发生,另一方面努力调动科室积极性、合理分配医疗资源、保障医保补偿性收入。通过本课题的研究表明:数据仓库以及数据挖掘技术能够找出与医保费用管理工作关系密切的规则集,通过规则来为医保费用管理工作提供有益的参考和指导,并协助制定动态的定额分配指标,加快医保数据分析反馈的速度以及做出及时的分析回溯。数据挖掘技术与传统技术相比具有灵活、快速、分析能力强的优点,把数据挖掘技术引入医保管理工作中将适应医保管理工作新的变化与挑战。本文为国内医疗机构采用数据挖掘技术对医保数据进行分析与利用作了有益的探索,为新的医疗管理决策方式提供了相关技术、过程与资料参考,为数据挖掘在医疗信息化建设中的应用作了有益的尝试。