数据挖掘技术在税收分析中的应用

来源 :硅谷时代 | 被引量 : 0次 | 上传用户:dancheman001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1.引言
  
  随着税务系统信息化事业的发展,已经形成了数据高度集中的面向纳税人和税管员的交易系统,产生了大量的业务数据,传统的税收分析方法已经满足不了新形势下税务管理的需要。由于数据挖掘技术可以在较大程度上解决目前数据、信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,并通过预测未来趋势及行为,做出前摄的、基于知识的决策,因此,数据挖掘技术为分析人员提供了强有力的信息支持,帮助分析人员做出正确的判断,科学的决策。将数据挖掘技术运用到税收工作中以支持税收决策和数据分析,提高工作质量和效率已成为现实的需要。
  
  2.数据挖掘技术
  
  2.1数据挖掘概述
  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。数据挖掘是一种新兴的多学科交叉领域,源于数据库系统、数据仓库、统计学、机器学习、算法设计、数据可视化、信息检索和高性能计算等领域。
  2.2常用的数据挖掘技术
  数据挖掘一般可以分为三种类型,它们是关联法、分类法和聚类法,每种类型都有若干种适合于此类型的算法,目前大致的类和算法如图1。
  
  关联法又称关联规则,它是数据挖掘中的基本方法,主要目的是寻找数据间的关联性。事物间存在着多种相关性,我们可以通过相关规则找出其内部相关性并以模式或规则形式将其展示出来。关联规则的常用算法是Apriori 算法,这是一种统计型算法,它的效率高、效果好,是目前最流行的挖掘算法之一。
  分类法也可分类分析法,是寻找分类数据中的每类数据的规律,事物可以按其表象分为不同的类,而这些类间具有内在的本质差异。在分类法的基础上可以进一步推演以实现推测未来的目标,所以分类与预测往往结合在一起。分类法中的算法很多,有决策树算法、粗集算法、贝叶斯算法、人工神经网络算法、回归分析算法及差异算法等多种算法,前四种算法比较简单、有效,是目前分类算法中最常用的算法。
  聚类法又称聚类分析法,它是对一组数据进行聚类的方法,聚类后的数据即构成了一组分类。聚类标准是以数据的表象(即数据属性值)为依据的,聚类的工作是将一组数据按其表象而将相近的归并成类,最终形成若干类,在类内的数据具有表象的相似性,而类间数据具有表象相异性。聚类法中的算法也很多,有遗传算法、划分法、层次法、基于密度方法、基于网格方法等,前三种算法比较简单实用,是目前聚类法中最常用的算法。
  
  3.基于数据挖掘的税收分析
  
  税收分析系统的数据挖掘关键是采用合适的数据挖掘算法对税收分析的主题构建模型,接下来将以关联法进行税务稽查选案分析为例,来说明数据挖掘技术在税收分析系统的应用。
  3.1关联规则相关概念
  关联规则是为了挖掘出隐藏在数据中相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则。挖掘关联规则的基本思路:给定一个事务集,挖掘关联规则的任务就是生成支持度(support)和置信度(confidence)分别大于用户给定的最小支持度和最小置信度以及相关度(correlation)大于1的关联规则。满足最小支持度、最小置信度和相关度要求的规则称为强规则。寻找出所有有效的强规则就是关联规则数据挖掘要完成的任务。
  假定有1000个事件,其中发生X行为的有640个,不发生X行为的360个;发生X行为时Y行为也发生的情况有380个,Y行为不发生的情况有260个;不发生X行为时发生Y行为的情况有110个,Y行为也不发生的情况有250个,那么X事件的支持度为640/1000=64%,Y事件的支持度为(380+110)/1000=49%;X事件对Y事件的置信度为380/640=59.38%,非X事件对Y事件的置信度为110/360=30.56%;则X事件对Y事件的相关度为(380/1000)/(64%*49%)=121.17%;非X事件对Y事件的相关度为(110/1000)/(36%*49%)=62.36%。
  3.2关联规则挖掘的基本步骤
  基于关联规则的数据挖掘主要任务是关联规则的发现,一般由发现频繁项目集和生成强规则两部分组成。具体步骤为:根据用户设定的minsupp,找出存在于事务数据库中所有的频繁项集,即满足支持度不小于minsupp的项集。频繁项集间可能具有包含关系,在生成强关联规则时利用相关度筛除被包含频繁项集。
  根据用户设定的minconf,在颇繁项集中寻找置信度不小于minconf且相关度大于1的关联规则。
  3.3在税务分析中的应用
  随着税务信息化建设的进行,稽查案件电子化管理已经得到普及,这不仅提高了税务稽查部门的办事效率,还增加了稽查过程的透明性,减少了稽查人员违纪的可能性。同时,数据库中也积累了大量的涉税违法违纪数据,各种违法违纪手段之间存在着隐藏的规则。找出违法违纪手段之间的关联性可以帮助稽查人员在稽查工作中有目的的去查相关账薄记录。如: M类型与N类型存在关联规则;则如果企业发现存在M类型的行为,就应该重点检查是否存在N类型的行为。
  1.稽查数据示例
  通过对稽查数据中企事业纳税人案件数据进行关联规则分析,得出如下结果,如表1、表2:
  
  2.实例结果分析
  通过关联规则挖掘,提取出符合实际税务稽查工作规律,得到税务稽查人员的认可,在稽查工作中有一定的实用价值。存在相关度不大于1的规则表明:所挖掘的数据存在一定”噪音”,影响了所获得的频繁集的质量。出现上述现象,其原因如下:一、数据库中数据在录人时存在一定的随意性,如将多种违法违纪现象合并成一种,影响了原始数据的真实性和参考价值。二、违法违纪手段分类比较粗糙,只使用了数据库存在的违法违纪行为,并未对涉税违法违纪行为进行细致分类。三、涉案纳税人主要该局所管辖规模较大的纳税人,不能完全代表所有涉税违法违纪行为。鉴于上述情况,收集范围更多更全面的数据用来提取有用的信息和把关联规则应用到其他涉税业务是今后研究的方向。
  
  4.结束语
  
  超大规模数据库的出现、先进的计算机技术、管理的实际需要和对这些数据的精深计算能力促成了数据挖掘的诞生、发展和应用,而数据挖掘技术的应用为信息时代的税收管理和决策提供了强有力的支持,随着税收分析理念和税收分析方法的不断发展,数据挖掘在税收分析中发挥着越来越重要的作用。
  
  参 考 文 献
  1王敏,谭荣华,李伟,税收经济分析系统的设计与实现[J].税务研究,2005.7.
  2赵亚俐.税务信息化的沉思[J].中国电子商务.2003.10:52-55.
  3陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,2002.8
  4徐洁磐.数据仓库与决策支持系统.北京:科学出版社,2005
  5李晓毅、徐盆枚.关联规则的算法分析[J]辽宁工程大学学报2006.2:318-320■
其他文献
[摘 要] 以人为本在中国和西方都有其传统,中国传统人本思想关注民心,但却是统治者的一种“牧民”策略;西方传统人本思想关注人与世界的和解,但却事与愿违;马克思主义则从现实人的角度出发试图对西方传统人本思想进行改造;科学发展观无疑是对马克思主义的人本思想理论的继承与创新。  [关键词] 以人为本 思想探源 继承创新    以人为本作为科学发展观的核心内容,理论界讨论颇多,然其内涵究竟如何界定并无定论
期刊
摘要:中國居民的财富特征与发达國家居民的财富特征明显不同,这是由于我國房地产市场发展程度、金融市场自由化程度、住房自有率的高低、房地产市场的投机程度以及人们对待房地产财富的观念等方面的差异所导致。本文基于广义虚拟经济的视角,利用我國30个大中城市1998~2009年的季度数据,建立房地产财富效应模型,对广义虚拟经济条件下房地产财富效应进行了实证检验。计算结果表明:我國30个大中城市的广义房地产财富
期刊
[摘 要] 财务管理体制是企业集团管理体制的重要组成部分,在提高企业集团绩效方面正日益凸显出其重要性来。在管理理论和财务管理研究都日臻完善的今天,笔者尝试将两者结合起来,使企业集团的财务管理体制更好地融入企业集团管理的总体思路之中,希望能对组建中和现实中的企业集团财务管理有所帮助。  [关键词] 企业集团 财务管理 体制    一、企业集团财务管理体制的基本模式    根据企业集团的联合方式及其财
期刊
[关键词] 电动机 启动 故障    一、一般原因    1.电机绕组的首末端不能颠倒,U1 V1 W1是同名端,U2 V2 W2是同名端,星形接法的星点必须是同名端,三相电源必须接入同名端。如果其中一相接反,电机出现一个反向磁场,这个磁场会抵消另外两个正向磁场的一部分,使磁场不能旋转而没有启动转矩。2.铁芯会进入磁饱和状态并迅速发热导致烧毁。还有5.5KW(380V)电机正常应该是三角接法,U1
期刊
[摘 要] 预算是一种系统的方法,用来分配企业的财务、实物及人力等资源,以实现企业既定的战略目标。企业可以通过预算来监控战略目标的实施进度,有助于控制开支,并预测企业的现金流量与利润。笔者认为,房地产企业集团预算管理的过程,是战略目标分解、实施、控制和实现的过程。对于房地产企业集团而言,预算必须与企业战略相结合,服从于企业远景规划和战略目标,根据战略寻找项目,根据战略确定项目的整体目标,根据战略确
期刊
[摘 要] 新课改下的美术课程设置,更具有灵活性、多样性、丰富性等特点,决定着更有利于培养学生的眼、手、脑三者协调工作,同时也能积极开启学生的思维能力和动手兴趣。新课改对培养学生的观察能力有课本和课程依托。观察是发展学生智力的重要途径,通过观察,可从学生熟悉却又没有深究过的社会现象出发,引出比较有深度的科学问题。新课改后的高中美术教学程式更有利于培养学生的创新精神。新课改下的美术教学,要求教师由知
期刊
[摘 要] 针对目前国税机关的信息化程度日益加深,上线使用了大量的IT信息系统,税务机关对运维的依赖性日益增强,目前的运维管理模式已经跟不上当前运维工作的要求,本文给出了基于ITIL的全省国税系统集中运行维护系统解决方案。建立了集中运维模型构架,分析了集中运维模型中各个构件的作用和功能,设计事件单流程、定制事件单审批规则,结合国税系统具体数据管理实例说明了如何在集中的平台下实现事件单的流转。本系统
期刊
[摘 要] Ajax(Asynchronous JavaScript+XML)是一个相当新的名字,是由Adaptive Path公司的咨询顾问Jesse James Garrett首先提出来的。Ajax的一些部分,以前称作动态HTML(Dynamic HTML)和远程脚本(remote scripting)。Ajax并不是一种新的技术,在Ajax中,采用一系列已有的甚至是老旧的技术,把它们重新锻造
期刊
[摘 要] 本文着重讲述了监理工程师如何把握好签字关,值得同行学习参考。  [关键词] 签字权 途径 方法    1.前言    随着监理事业的发展,监理作为工程建设中独立行使职权的第三方,在当前的建筑市场经营活动中扮演着越来越重要的角色,日益显示出其重要的地位和作用。监理企业是“以人为本”的服务型企业,监理人员素质的高低,直接体现出监理人员自身职业道德水平和监理企业的形象。而监理工作内容中的各个
期刊
[摘 要] UML是一种可视化的建模语言,是面向对象分析与设计的重要工具。本文以税务稽查举报案件管理系统为例,从UML的静态建模机制和动态建模机制入手,初步研究了基于UML的税务稽查举报案件管理系统的建模。  [关键词] UML 税务稽查举报案件管理系统    UML(Unified Modeling Language,统一建模语言)是由Rational公司的知名专家Gary Booch Ivar
期刊