基于数据仓库的社保行业决策分析研究

来源 :软件工程师 | 被引量 : 0次 | 上传用户:zxy86983028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:利用数据仓库技术可以对分布在社保部门之间的业务数据进行采集、加工、整合,从而建立数据仓库。我们可以根据不同的业务主题建立不同的数据仓库,为社保行业的管理及决策提供分析信息和决策依据。本文介绍了数据仓库及相关技术、社保行业中数据仓库的分析与设计、社保行业中数据仓库的实现等。
  关键词:数据仓库;社会保险;OLAP;DTS
  
  1 引言
  随着信息化技术的迅速发展,社保行业的信息化建设已初具规模。建立在各种中、大型数据库之上的基于联机事务处理(OLTP)的MIS系统已经日趋完善,但同时新的问题应运而生。一方面,历史性数据开始出现,对大量历史数据的管理已迫在眉睫;另一方面,用户已不仅仅停留在单纯的业务流程自动化上,更希望能更好地汇总、分析企业多年来积累的庞大的业务数据、财务数据等数据资源,并从中挖掘出业务的内在规律,以便更好地支持决策过程,在竞争中取得优势。
  本文研究基于社保行业的迫切需求,建立数据仓库,并在此基础上进行数据查询、多维分析(OLAP)和数据挖掘等工作,从而使社保行业更好地利用这些几十年积累的各种数据,从中发现内在的、有价值的信息。
  
  2 社保行业数据仓库的设计
  2.1 需求分析
  社保行业迫切需要从当前海量数据中寻找潜在的规律及隐藏的知识,发现那些在经验之外的规律和推测之外的模式。本文针对某市社会保险部门构建决策支持系统DSS,即数据仓库系统,通过与社保部门有关领导进行充分的交流和沟通,了解到其需求状况,并获得以下信息:决策的类型、决策者感兴趣的问题等。
  2.2 数据仓库体系结构的设计
  (1) 数据源的确定。本系统的数据源是某省劳动厅近年来积累的事务数据,数据基于关系数据库,以光盘形式存储。由于多年的数据积累,数据源中存在“多数据源”“数据不完整(有些感兴趣的属性缺少属性值,或仅包含聚集数据)”“含噪声的(包含错误或存在偏离期望的孤立点值)”“不一致的(例如,同一字段的表达方式不同)”等质量问题。另外,这些数据源是异构的,即使是正确的数据,也可能存在着不一致性、冲突等问题。因此需要对数据源进行清洗后再提供给数据仓库所用。
  (2) 数据仓库层的设计。本系统使用SQL Server 2000作为数据仓库服务器,在SQL Server 2000的“企业管理器”中新建一个关系数据库,在该数据库中建立表和关系图,表的建立依据物理模型设计,关系图的建立依据逻辑模型设计。此关系数据库中的数据是使用SQL语句和DTS工具对源数据进行合并、清理、转换和加载后得到的,新建的关系数据库就是数据仓库,即数据存储中心,它将是OLAP服务器的数据来源。
  (3) OLAP服务器层的设计。本系统使用SQL Server 2000的Analysis Services作为OLAP服务器,在Analysis Manager中建立分析数据库,在分析数据库下设定数据源,并按照星型模型建立多维数据集,为下一步进行多维分析奠定基础。本数据仓库中的多维数据是用ROLAP以关系型结构进行表示和存储的。
  (4) 数据分析/应用层的选择。本系统在数据透视表服务组件的支持下,应用EXCEL前端工具对数据仓库进行多维分析和查询。这种操作不需要学习其他语言来编写客房端应用程序,使用所附带的连接数据库的功能操作即可。而且,它可以连接到分析服务器,将服务器端的多维数据集放到客户端成为一个本地文件,以后在无网络连接的情况下可以用来分析。使用Microsoft Visual Basic 开发客户端人机交互界面,其中用ADO MD和DSO对象实现对多维数据集的访问,从而实现多维数据集浏览工具的开发。
  2.3 分析主题的确定
  通过与社保有关人员交流,了解到他们在业务中最关心的是基金的管理,即基金的收缴与拨付。确立本数据仓库的分析主题为“在职人员养老保险基金收缴”和“离退休人员养老金拨付”,度量值分别是“基金收缴金额”和“养老金拨付金额”。分析主题根据分析要求将数据组成了一个完备的分析领域,即主题域,且满足主题域的独立性和完备性的特征。
  2.4 社保行业数据仓库的逻辑数据模型设计
  由于数据仓库的主要操作对象是多维数据,因此在数据仓库设计中,应采用多维数据建模技术,以使用户能更好地理解企业的数据信息。多维数据建模符合人们的思维方式,易于用户的理解和使用,能支持用户从多个角度对数据进行分析。现在大部分企业使用的是关系数据库,在建设企业的数据仓库时,一般采用基于关系数据库的建模方法。在基于关系数据库的多维数据建模中最常见的是星形模型。本系统采用星形模型进行设计。
  本系统的数据源是由某社部门提供的事务数据。通过分析设计了两个事实表:zz_fact(在职人员养老保险基金收缴事实表)及ltx_fact(离退休人员养老金拨付事实表),这两个事实表的主码是由相应维表的主码构成的组合码,事实表通过外码与维表建立联系,便于以后查询。设计了四个维表,分别是time_by_day,Unit_Table,geo_table,sj_Private_table,它们的主码分别是time_id,DWNM,geo_ID,sj_ID,它们通过主码与事实表建立联系。
  2.5 社保行业数据仓库的物理存储模型设计
  数据仓库是数据库技术一种新的应用。至今,数据仓库一般仍是应用数据库管理系统来管理其中的数据。数据仓库的逻辑数据模型最终将转为数据库的物理模型。
  建立数据仓库物理模型所依据的逻辑模型是多维数据模型,而不是实体-关系模型,并且要尽可能地与多维数据模型保持一致。由于实际应用环境的限制,数据仓库的物理模型同逻辑模型存在差异是不可避免的。
  
  3 社保行业数据仓库的实现
  3.1 技术环境和实现工具的选择
  本系统使用Microsoft SQL Server2000作为数据仓库服务器开发平台,使用Analysis Services作为OLAP服务器开发平台,使用DTS(Data Transformation Services)作为数据转换工具。
  3.2 数据仓库的建立
  本系统使用的数据,是某市社保局所提供的已有的参保人员的信息资料,已转换成SQL Server数据库“sbdata”源数据。在这些源数据中有数据的重复、丢失、改变等脏数据。首先使用SQL语句将多个表的数据组合在一起,并进行字段的删除、属性修改等操作,最后通过DTS传输至 “sb”数据库相应的表中。数据导入时先导入维表,然后再导入事实表;数据删除要先删除事实表,然后再删除维表。本DTS包创建工作流的优先级如下:(1)执行SQL任务,删除现有的SB数据;(2)将数据汇集到维表中;(3)将数据汇集到事实表中。
  完成SB的DTS包设置后,通过执行包将源数据库sbdata中的数据加入到SB数据仓库中,并把SB作为分析服务器的数据源,在分析服务器下建立多维数据集。最后保存DTS包。
  3.3 社保行业数据仓库中数据分析的实现
  在本系统中,采用SQL SERVER 2000的Analysis services OLAP分析工具。
  在分析服务器端使用Analysis services的分析管理器(Analysis Manager)创建分析数据库,在分析数据库中建立多维数据集,并对多维数据集进行处理和分析。
其他文献
<正> 电影文学剧本《姑娘今年二十八》在塑造柳珊这个人物时,没有以喜剧脸谱的模式去描写,而是用她独特的个性来展现人物的内心世界,丰富人物的形象。作品中的柳珊好说好动,
本周沪综指突破千二关口后又面临年线压力,市场在憧憬、惜售、犹豫、彷徨的气氛中相对平淡地运行了一周。近一个月以来,相信绝大部分的投资者都会觉得有些郁闷,因为禀承传统
上市公司股改全面完成后,我们将迎来一个全流通时代。这是诸多有识之士翘盼已久的时代。这样的市场中将会发生什么?收购。在股权分置的背景下,无论是协议收购还是要约收购,收
德国伟大诗人哥德在《少年维特之烦恼》中写道:“哪个少年不钟情?哪个少女不怀春?”可以说,追求爱情是人类的天性,而且是人类最美好的天性!他们刚刚走出校门,正值青春年华,同在一个公司甚至一个办公室上班,朝夕相处,耳鬓厮磨,于是,办公室恋情水到渠成,青春是那么的美好浪漫……  毕业即分手,小范是上海某公司的新员工,在暑假刚经历了一场撕心裂肺的失恋,所以,进公司后她发毒誓这一辈子再也不找男朋友了!与小范一
【正】 电视新闻以其视听兼备,声画并茂而见长,以其生动的画面、形象直观的表现形式、身临其境的独特魅力而居众多传媒之首。 听新闻?还是看新闻?这本没有什么可研究之理,电
从目前的经济形势来看,国际金融危机的冲击还未见底,实体经济已深受影响,国内广大企业面临生存和发展的严峻考验。对于中小企业而言,如何走出困境,寻找新的发展模式,已成为当前亟待
当人们抬起头来,突然发现岳麓山上的枫叶已经红了,那真是一种发自内心的惊喜。尽管那些每年上山看枫叶的人会发现,今年枫叶红得有点晚。我这个懒人去得更晚,等费了九牛二虎之
期刊
配电网规划的方法多种多样,配电网规划管理的模式多种多样,传统配电网规划方法及管理模式已经不能适应现在配电网规划及管理的要求。本文以完善目前配电网规划为目的,首先介
近日,江西铜业(SH600362,HK0538)套期保值损失2.48亿元一事,备受瞩目,成了投资者关注的话题,业内媒体也纷纷就此进行报道并发表了相关分析和评论。部分评论在饱含质疑、责问