论文部分内容阅读
人口老龄化是指老龄人口比重不断上升,并达到一定水平时的人口结构状态。随着人口出生率的下降、死亡率的下降和平均寿命的延长,人口老龄化已成为一个世界性的趋势。根据联合国的统计标准,目前世界上所有发达国家都已经进入老龄社会,许多发展中国家正在或即将进入老龄社会。如何为庞大的老年群体提供有效的医疗保障,是一个需要进行深入研究的社会问题。随着我国人口老龄化的逐步加重和养老保险基金隐性债务的增大,我国的养老保险基金是否具有充足的支付能力来应对未来的老龄化危机,成为政府和公众最为担心的问题。本文利用数据挖掘的关联分析方法,对社会医疗保险基金收支情况进行了研究,深入分析了参保人员、参保单位、医疗单位等各因素对社会医疗保险基金平稳运行的影响,为社会保障部门适时调整基金收缴政策、确保医疗保险制度的顺利实施提供有力的技术支持。数据挖掘是一种从数据库中抽取和识别出有效的、新颖的、可理解的、事先不为人知的但又潜在有用的模式或知识的过程或技术,本文对数据挖掘的起源、发展现状及原理进行了分析,研究了数据挖掘体系结构、流程等内容。并通过对数据挖掘技术及几种主要的数据挖掘算法的研究和总结,最终选取了关联分析发作为此次研究的主要方法。关联分析是数据挖掘的重要技术之一,文章介绍了关联规则的定义、支持度信任度等概念,并详细讨论了关联规则的经典算法如Apriori算法、FP-growth算法。关联规则挖掘的目标是发现大量数据中项集之间的关联关系并生成关联规则。因此,数据挖掘,特别是关联分析方法可以有效分析医疗保险基金的收支数据,挖掘出不同身份、不同年龄参保人与医疗保险基金支出之间的关系。本课题选取的数据源自医疗保险数据库中依据相关政策规则设置的参数信息以及参保人个人详细信息及医疗信息,首先对采集到的数据进行数据预处理,包括数据清理、数据集成、数据转换、和数据规约四个步骤;由于来源数据采用的是基于关系表的存储方式,因此我们在建立数据仓库时选用维度建模方法建立星型模型,重新组织了来源数据的结构关系;数据挖掘阶段我们选用Apriori算法并对其进行了改进,主要进行了参保人收入与医疗支出关系数据挖掘、常见疾病与住院信息数据挖掘、分年龄门诊信息数据挖掘三个方面的关联规则挖掘。由于目前国内社会医疗保险系统还没有一个完整的应用数据仓库和数据挖掘技术解决基金风险控制问题的应用方案,本文从实用的角度形成提出了一整套的实现方案,具有一定的先进性和实用性。