ETL技术在地税数据集中项目中的应用探讨

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:yupucn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着国家税务部门对涉税数据精确化管理的需要,迫切要求将各级税务机关的征管数据汇总,并进行分析和预测。鉴于我省核心征管系统省、市两级部署,分散应用,所以在数据集成的过程中对数据的准确性和及时性要求比较严格,就必须使用ETL技术来实现三级数据的集成。
  关键词:ETL技术;税务部门;数据集成应用
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)21-5255-03
  ETL Technology in Land Tax Data Centralized Project
  TANG Liang
  (Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China)
  Abstract:Along with the national tax authorities on tax data accurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data accuracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration.
  Key words:ETL technology;tax department;data integration application
  为了加大地税系统数据向国家税务总局集中的力度,进一步提高税务系统税源监控和分析的能力,不断深化“信息管税”工作,国家税务总局于2010年5月底下发了《国家税务总局关于做好抽取全国地方税务系统税收征管有关数据准备工作的通知》(国税函〔2010〕235号),要求各省地方税务部门做好数据抽取相关准备工作,为了推进这一项目的实施,我省于2012年1月~3月启动了这项工作,经过近半年时间的施工和试运行,实现了全省17个市局核心征管数据的集中工作,系统目前运行情况比较稳定。
   1系统功能
  本项目为了完成从17个市局征管系统抽取数据的功能,将系统分别从功能、数据、技术三个角度描述系统的设计内容。功能实现方面,系统提供配置管理、数据抽取、质量管控、系统管理四个功能域。数据存储方面,将源系统表、目标系统表、系统配置表归属到抽取数据层、目标数据层、控制数据层三个层面中。技术实现方面,系统按照分层的思想将系统划分为了数据层、控制层、展现层三个层面。数据层采用Oracle、Sybase等主流数据库以及ETL平台进行数据的实际存储和抽取;控制层采用先进的工作流技术,完成抽取流程的定制和控制;展现层主要使用Ext/Flex等富客服端技术实现友好的客户界面。
   2 ETL过程
  数据抽取过程是首先检查17个市局系统数据库中的数据合理性,检查正确后将数据抽取到抽取数据层。系统进一步根据控制数据层的内容对抽取数据层的数据进行转换,将转换后的结果加载到目标数据层,目标数据层的数据供总局进行数据抽取。上述过程构成一个数据抽取的流程作业,每个作业都可以配置自动后台执行或页面上手工抽取,在执行过程中的某个环节一旦出现异常时,将通过异常管理模块进行通知和干预。
  2.1数据检查环节
  在数据检查环节,主要从接口数据的正确性、及时性和完整性等三个方面进行检查,同时根据入库是否异常、接收文件的时间等角度进行分析;对于业务应用系统的数据库接口,则主要从接口的及时性和一致性方面进行检查,通过比较源系统的相关指标,分析数据的可信度。
  2.2数据抽取环节
  数据抽取是指从数据源系统中获取数据,抽取策略包括抽取方式(增量、全量)、抽取周期等。
  系统支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统和各种文件格式的源数据等。
  本次的数据抽取是从17个市局征管系统中把征管相关数据抽取到本系统的抽取数据层。每月初,系统17个市局征管系统将数据以数据文件的形式,完成全量复制;每天通过数据库接口通过数据抽取工具以增量复制方式完成数据同步。
  2.3数据转换环节
  数据转换包括格式和类型数据的转换、数据翻译、数据匹配、数据聚合以及其它复杂的计算等。多数情况下,数据源到本系统之间主要的转换是格式转换、数据翻译、数据匹配。
  本次系统的数据转换主要是将各个数据源的数据按照国家税务总局的代码表进行转换,将转换的结果放到目的数据层。
  2.4数据加载环节
  数据加载是指将抽取转换后的数据加载到本系统中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。
  2.5异常管理
  主要通过计数/统计数平衡、拒绝数据量等方便评估数据复制、ETL的具体运行情况,以发现数据整合过程中有关数据的问题,并进行必要的处理。
  支持检验点。当外部数据记录特别庞大时,如果因为某种原因发生故障中断后,可以从最近的校验点开始处恢复处理。支持外部数据记录的错误限制定义,同时将发生错误的数据记录输出。   2.6作业管理
  作业管理主要包括初始化作业、日常ETL作业、日常复制作业、异常处理作业等,同时支持自动作业和人工作业。支持任务属性配置,可以对各项任务的属性进行配置,并保存在后台配置文件中,以备任务调度按序执行。
   3 ETL部署
  考虑到数据整合性能的关系,采用应用模块和ETL脚本执行模块分开部署的方式,通过统一的调度任务在ETL服务器上完成执行。
  图2ETL部署
  脚本、日志存储规划:脚本按目录存储,对应脚本管理表中的部署路径、文件名称等。原始日志统一存储在ETL服务上。为了后续能查看流程环节中脚本的原始日志,因此在原始日志命名上考虑采用“脚该文件名 环节实例ID”进行命名。由于ETL原始日志是在脚本执行时系统自动生成的,因此在调用接口服务时,同时需要传递环节实例ID参数。
  数据整合的时序图如图3:
  图3时序图
  数据整合过程由任务调度模块或者人工进行启动,任务启动后调用相应的流程(异步),流程启动后生成任务日志。
  流程引擎根据流程配置,执行流程环节,对于E、T、L环节生成脚本执行任务,脚本调度服务调度任务,当脚本执行完毕时写入执行结果,流程引擎定时读取执行结果;对于抽取前校验环节(主要是FTP数据整合前检验),根据配置的规则进行执行,对于FTP的访问调用中数据源统一服务设计中相关服务,对于人工环节,则生成环节及相应的参与人。
  对于E、T、L环节,流程引擎除生成执行任务外,在任务完成后还需要根据配置的规则进行校验(先执行条件规则,然后执行动作规则),同时写规则日志。
  流程引擎在执行环节过程中出现异常,或者在执行规则校验不通过时(包括单独的校验环节以及E、T、L环节中的规则),除更新流程自身状态外,均需要更新任务表中的状态。此外,在流程监控过程中,人工可以查看ETL执行的原始日志。
   4实施效果
  自今年以来,全国税务系统开展并完成了征管数据向国家税务总局集中的工作,这些数据为税务总局和各级国税机关实施税收科学化、专业化、精细化管理提供了有效支持,在税源管理、纳税评估、政策调整基础数据测算、政策效应分析、税务稽查等方面发挥了重要作用,同时也进一步提升了地税系统税收管理能力,强化税源监控工作。
  参考文献:
  [1]王时绘,伍江磊.ETL中数据清洗技术在税务系统中的应用[J].科技广场,2011(11).
  [2]卢新生,金波.广东地税基于ETL元数据管理征管系统的研究与实现[J].顺德职业技术学院学报,2009(1):33-35.
其他文献
语言教育活动是幼儿园日常教育的重点,其不仅能够影响幼儿今后的语言能力,还能对幼儿自身的阅读能力产生作用。在目前幼儿园的语言教育活动中,其还存在着一定的不足,比如由于教学
为研究炸药烤燃特性的隔热层效应,以钝化RDX炸药为对象,选用硅橡胶腻子GPS-2和耐烧蚀涂料T-09作为隔热材料,对不同厚度隔热层的烤燃试样进行了1℃/min的慢烤实验;并用Fluent
科技中介服务机构对于技术转移工作日趋重要,首先简单介绍了企业技术需求的特点,然后分析了需求对接服务的流程,提出了需求对接服务的方法。
<正> 汉江集团水电公司负责企业内部的生产、生活供电和供水,年供电14亿kW&#183;h,供水1000万m~3,随着国民经济的迅速发展,社会用电量的剧增,公司在进行OSHMS达标、建立职业
高校体育对学生进行终身体育教育具有基础性的关键作用,要通过提高学生的体育技能、自我锻炼能力和完善体育考核制度等措施,培养学生终身体育的意识。
<正> 在确立金属材料特性的时候,往往要了解其热学特性,其中最主要的就是要测量其热传导系数。用传统的流水法测既麻烦,精度又不高;用比较先进的激光方法则设备较复杂。下面
内网安全已经成为各大中型企业用户极为关注的问题。为了解决内网的安全问题,将RADIUS技术与静脉生物技术相结合,设计了一套高安全性的静脉生物认证系统。
本文分析了各国关于V型缺口冲击试样的缺口加工方法及表面粗糙度的要求。选择了现行加工V型缺口较普遍的四种方法,磨、铣、拉和电火花切割;分别测试了各种试样从室温到低温下
为提高注水效果和采收率,常使用化学堵水法来达到调剖堵水的目的。研究以三氯化钛和硫化钠溶液为主反应生成的钛酸盐调堵体系,研究并评价了其独特的结构和在岩石孔隙中的调剖
摘要:作为网络安全管理的辅助工具,入侵检测系统极大的提高了网络管理员的工作效率,帮助网络管理员及时发现可能的攻击并迅速采取措施,尽量减少网络攻击所带来的损失。入侵检测系统在网络安全解决方案中不可或缺,它的存在,一定程度上保证了在网络安全方案中的所有安全部件以最佳的状态进行工作。  关键词:网络安全;入侵检测系统;NetDT   中图分类号:TP393文献标识码:A文章编号:1009-3044(20