基于数据挖掘技术的数据服务辅助系统的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hanjian8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据主要技术的发展,以“金税三期”为背景的大数据云平台已建设完成。税收现代化下的治税已从以应用为中心向以数据为中心转变,常见的税收数据应用有税收监控类,纳税分析类和查询分析类等,其中,查询分析类的应用多为基础数据简单的查询统计,而税务人员需要以更快,更便捷的方法来对大量的税务数据进行提取、分析和挖掘其潜在的信息。目前,随着“金税三期”工程的开展,税务数据也从原来的Oracle数据库,迁移到云端数据库中,数据的使用也因为大数据云平台的建设而更方便。如何利用这些数据信息,进而提取有重要价值的模型,并通过模型来分析,有十分重要的意义。在大数据云平台上对税收的各个领域建设完成多个应用,而税务数据的查询统计分析在决策国民经济发展中同样有重要应用。在数据服务工作中,更注重对数据的本地分析,需要独立的系统来支持数据服务工作的进行。本文以数据挖掘技术为核心,首先分析常用的数据挖方法的原理,如分类和聚类,关联规则,通过文献的研究,进行相关算法的优选,同时,将文献中的优化理论,实际应用到算法的实现中,并对实现的理论进行对比分析。其次,数据挖掘的过程离不开数据的预处理,税务数据在大数据云平台中,已有过数据清洗,但是在应用到数据挖掘时,仍需要数据处理。本文结合金税三期的数据质量检查指标,提出了数据预处理的规则,并结合云平台的语法,给出不同规则下的数据清洗ODPS SQL语句。最后,通过调研相关的平台和系统,结合实际的工作环境,设计和实现了基于数据挖掘的数据服务辅助系统。在此项目中,数据挖掘方法中算法的实现和数据挖掘模块的设计是重点,此项目适合数据开发人员在大数据云平台的应用中使用。实际的应用结果显示,本文实现的系统能有有效切快速的对数据进行挖掘。帮助税务人员对税务数据做出分析、判断和推测。
其他文献
由查耳酮和4-氯苯甲酰肼反应得到查耳酮-4-氯苯甲酰腙(H2L),以该酰腙为配体,水热合成制得一个新的配合物查耳酮-4-氯苯甲酰腙吡啶铜(Ⅱ)(CuL2Py)(CCDC∶844451),并通过元素分析、红外
采用了光谱法、粘度法和差示脉冲伏安法,研究了合成的三元铜配合物[Cu(Phen)(CA)2]·2H2O(Phen=1,10-邻菲啰啉,CA=肉桂酸)与鲱鱼精DNA之间的相互作用。结果显示:在加入DNA后,配
为了适应国内外市场用户的需要,甘肃光学仪器工业公司研制成一种新型的35毫米电影放映机用的宽银幕镜头.由于它视场角大,通光口径大,放映35毫米宽银幕影片效果好.同时,它还采用光敏
目的探讨靶控输注七氟烷静-吸复合麻醉在腰椎手术中的应用效果。方法用随机数表法将择期行腰椎手术的104例患者分为观察组及对照组,各52例。观察组行七氟烷静-吸复合麻醉,对
前段时间笔者提出了数字接收机下载并显示中文节目名称的问题.文章刊出后不久.江苏的余桂银朋友就这个问题与笔者做了进一步地探讨,使笔者受益非浅,并有了一个新的认识。
【正】 一、增强做好文化工作的责任感、使命感重视并推动文化事业的快速发展,是经济结构调整和人民群众生活水平提高的必然要求。可以说,拥有深厚文化底蕴的西安,作为西北政
【正】 西安市人民政府令第68号《西安市防雷减灾管理办法》已经2007年11月28日市人民政府第28次常务会议通过,现予以公布,自2008年2月8日起施行。
目的 探讨分析多胎妊娠分娩时机与分娩方式。方法 随机选取100例多胎妊娠患者,对这些患者的分娩时机以及分娩方式进行回顾分析。结果 100例产妇中早产32例,足月生产68例,早产