论文部分内容阅读
数据挖掘是数据库或数据创库技术发展到一定程度的产物,使用数据挖掘的目的是利用有效的算法,从海量的数据中挖掘或发现我们未知,并且有价值的信息,最终用简单的方法展现出来。目前数据挖掘的技术已经应用到商业销售,投资市场,建筑工业等多个领域,但是在社保领域方面还处在初级阶段。本文以关联规则的挖掘作为理论基础,通过实际应用系统的需求分析,结合社保数据自身的特点,挖掘出了社保数据中蕴含的属性与属性、事务与事务之间的关联,说明了将数据挖掘技术应用到社保数据分析中的重要性和实际意义。其次,对数据挖掘的相关概念、主要任务、过程跟方法、发展现状和发展趋势作了比较详细的阐述.本文以佛山社保信息系统的建设为背景,以系统运行的过程中大量的社保数据作为基础进行数据挖掘技术的探索和研究,并通过相关文献的分析和对比,在数据挖掘、数据仓库、数据关联等知识的基础上,针对大量的社保数据关联规则的挖掘进行了探索性的分析。阐述关联规则的相关概念和问题,设计和实现了关联规则发现算法,依据系统的实际应用和社保数据的特点,在Apriori算法的基础上提出了挖掘社保数据关联规则。使用了加权参数来加强重要社保开户类型的重要性,以挖据出开户时间、开户类型、医疗费用之间的关系。使用本算法挖掘出的关联规则有比较高的应用价值,能帮助医保决策人员在正确的时间有重点的开展医保业务,提高工作效率和收益。最后,在对序列模式的基础知识有了全面的理解之后,然后对常用的序列模式发现算法进行了比较细致的分析和比较,在此基础上,本文也对发现社保数据中的序列模式的问题进行了创造性的开发和研究,并提出了发现社保数据序列模式需要解决的几个问题,主要有:数据量大;分析对象不固定;序列的长度较长;属性之间重要性不同.针对这几个问题,本文在PrefixSpan算法的基础之上提出了算法的改进方法:使用数据划分,减少数据量,建设通用平台,根据应用的实际需求来确定分析的对象,从而发现不同类型的序列模式;通过使用记录的前缀来大大的缩短待分析的序列的长度;并且在扫描投影数据库的过程中引入“加权前缀’方法的思想来强调属性的重要性,使大型商户类型投保出现在发现的频繁序列之中,以分析其发生规律在大量时序数据中挖掘出社保数据潜在的序列模式,有利于社保预测和社保部门前期计划,对合理安排工作,提高社保部门反应速度和处理能力都有重大意义.