论文部分内容阅读
随着大数据主要技术的发展,以“金税三期”为背景的大数据云平台已建设完成。税收现代化下的治税已从以应用为中心向以数据为中心转变,常见的税收数据应用有税收监控类,纳税分析类和查询分析类等,其中,查询分析类的应用多为基础数据简单的查询统计,而税务人员需要以更快,更便捷的方法来对大量的税务数据进行提取、分析和挖掘其潜在的信息。目前,随着“金税三期”工程的开展,税务数据也从原来的Oracle数据库,迁移到云端数据库中,数据的使用也因为大数据云平台的建设而更方便。如何利用这些数据信息,进而提取有重要价值的模型,并通过模型来分析,有十分重要的意义。在大数据云平台上对税收的各个领域建设完成多个应用,而税务数据的查询统计分析在决策国民经济发展中同样有重要应用。在数据服务工作中,更注重对数据的本地分析,需要独立的系统来支持数据服务工作的进行。本文以数据挖掘技术为核心,首先分析常用的数据挖方法的原理,如分类和聚类,关联规则,通过文献的研究,进行相关算法的优选,同时,将文献中的优化理论,实际应用到算法的实现中,并对实现的理论进行对比分析。其次,数据挖掘的过程离不开数据的预处理,税务数据在大数据云平台中,已有过数据清洗,但是在应用到数据挖掘时,仍需要数据处理。本文结合金税三期的数据质量检查指标,提出了数据预处理的规则,并结合云平台的语法,给出不同规则下的数据清洗ODPS SQL语句。最后,通过调研相关的平台和系统,结合实际的工作环境,设计和实现了基于数据挖掘的数据服务辅助系统。在此项目中,数据挖掘方法中算法的实现和数据挖掘模块的设计是重点,此项目适合数据开发人员在大数据云平台的应用中使用。实际的应用结果显示,本文实现的系统能有有效切快速的对数据进行挖掘。帮助税务人员对税务数据做出分析、判断和推测。