基于社保的数据关联处理方法

被引量 : 9次 | 上传用户:renj19861123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是数据库或数据创库技术发展到一定程度的产物,使用数据挖掘的目的是利用有效的算法,从海量的数据中挖掘或发现我们未知,并且有价值的信息,最终用简单的方法展现出来。目前数据挖掘的技术已经应用到商业销售,投资市场,建筑工业等多个领域,但是在社保领域方面还处在初级阶段。本文以关联规则的挖掘作为理论基础,通过实际应用系统的需求分析,结合社保数据自身的特点,挖掘出了社保数据中蕴含的属性与属性、事务与事务之间的关联,说明了将数据挖掘技术应用到社保数据分析中的重要性和实际意义。其次,对数据挖掘的相关概念、主要任务、过程跟方法、发展现状和发展趋势作了比较详细的阐述.本文以佛山社保信息系统的建设为背景,以系统运行的过程中大量的社保数据作为基础进行数据挖掘技术的探索和研究,并通过相关文献的分析和对比,在数据挖掘、数据仓库、数据关联等知识的基础上,针对大量的社保数据关联规则的挖掘进行了探索性的分析。阐述关联规则的相关概念和问题,设计和实现了关联规则发现算法,依据系统的实际应用和社保数据的特点,在Apriori算法的基础上提出了挖掘社保数据关联规则。使用了加权参数来加强重要社保开户类型的重要性,以挖据出开户时间、开户类型、医疗费用之间的关系。使用本算法挖掘出的关联规则有比较高的应用价值,能帮助医保决策人员在正确的时间有重点的开展医保业务,提高工作效率和收益。最后,在对序列模式的基础知识有了全面的理解之后,然后对常用的序列模式发现算法进行了比较细致的分析和比较,在此基础上,本文也对发现社保数据中的序列模式的问题进行了创造性的开发和研究,并提出了发现社保数据序列模式需要解决的几个问题,主要有:数据量大;分析对象不固定;序列的长度较长;属性之间重要性不同.针对这几个问题,本文在PrefixSpan算法的基础之上提出了算法的改进方法:使用数据划分,减少数据量,建设通用平台,根据应用的实际需求来确定分析的对象,从而发现不同类型的序列模式;通过使用记录的前缀来大大的缩短待分析的序列的长度;并且在扫描投影数据库的过程中引入“加权前缀’方法的思想来强调属性的重要性,使大型商户类型投保出现在发现的频繁序列之中,以分析其发生规律在大量时序数据中挖掘出社保数据潜在的序列模式,有利于社保预测和社保部门前期计划,对合理安排工作,提高社保部门反应速度和处理能力都有重大意义.
其他文献
基层自治是国家治理体系的重要组成部分。在新的形势下,我国基层自治的发展要突破瓶颈需要进行理念的创新。近年来,上海市围绕"让自治成为一种生活方式"的理念进行了卓有成效
目前,我国的资源紧缺问题使城市尤其是资源型工业城市,在发展和运行等各方面所面临的资源、环境压力日益加大,资源节约型城市的建设是资源紧缺状态下的必然选择,是落实科学发
提高驾驶员素质是一个较大的课题,本文就其中的驾驶员驾驶技术素质与交通安全的关系问题进行一些研究,并用系统的观点看待人与车之间的关系问题。也就是通过调查了解,整理资料等
翻译传播理论是翻译学界新产生的一种理论 ,目前尚未引起人们的重视。探讨这一理论在翻译学史中的地位、理论来源、已有成就以及理论建设的意义对翻译研究具有指导作用。
随着近几年史学家观点的逐步转变,对唐氏史学的褒奖不断增多。虽然大陆图书市场还未完全开放,但热心的读者都已通过网络传播读到了唐氏未被删节的原作(远流出版社版)。本文旨
<正>元代的阶级矛盾和民族矛盾十分尖锐。关汉卿对当时的社会现实极为不满,他生活在社会的底层,写杂剧、演杂剧,揭露黑暗现实,寄托自己的生活理想。《窦娥冤》取材于当时的现
本文从儿童思维的独特性入手,论述反复修辞在童话创作中的作用和意义。基于儿童思维的直观性、具体性等特点,在童话创作中大王运用突出、强化记忆的反复修辞是不可缺少的;而反复
随着我国经济的快速发展,商务活动国际化更加明显,商务英语的应用范围更加广泛。经济和社会发展对高索质的商务英语专业复合型人才的需求更加迫切。笔者以我院自99年开办的商
<正> 大量事实启示我们认识到:一部堪称优秀的儿童文学作品,需要满足两个互为依存的条件:既为儿童喜爱,也耐成人寻味。丹麦伟大童话作家安徒生的作品,就是这样。他的《海的女
近代以来 ,私小说一直是日本文坛的主流。私小说离不开“自我” ,“自我”是私小说的核心所在。“自我”与日本传统文化底蕴息息相关。日本的私小说写得封闭而内缩 ,主张如实