浅析数据挖掘技术与税务信息化建设

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:lcl427hjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:介绍了数据挖掘技术在税务信息化建设中的定位、目标和具体应用方法。分析了数据挖掘技术应用中存在的问题,指出了数据挖掘技术对税务信息化建设的重要意义。
  关键词:数据挖掘;税务;信息化
  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)33-1294-03
  A Brief Analysis on the Data Mining Techniques for Taxation Informationization
  CAO Si-si, CHENG Guo-jian
  (School of Computer Science, Xi’an Shiyou University, Xi’an 710065, China)
  Abstract: The position, goal and methods of data mining techniques for the taxation informationization were introduced. The problems on the application of data mining techniques were also analyzed and finally the important effect of data mining techniques on the taxation informationization were indicated.
  Key words: data mining; taxation; informationization
  1 引言
  随着信息技术飞速发展,我国税务系统已基本实现了数据省级集中,国家税务总局通过数据抽取的方式实现了征管数据的全国集中。全国国税系统每年数据量以TB级的速度增长。这些数据如果不加以挖掘利用,无疑是巨大的浪费。数据挖掘技术恰好可以成为税收信息化工作的一把利器,具有广阔的应用前景[1-4]。
  国际上,数据挖掘技术在税务领域取得了不少成功[5]。如美国加州税务在1998年就启动了基于IBMDB2数据库软件的综合逃税人监察项目数据仓库解决方案(INC)项目,使加州税务能够在超过2.2亿项的独立信息中利用商业智能技术进行业务分析。1996年美国国家税务局利用数据挖掘技术追回补交税款两亿笔,增收200亿美元的税金和罚款,并进行了120万笔账目审计。数据挖掘技术的重大意义不言而喻。
  2 数据挖掘的概念
  数据挖掘(Data Mining)技术是就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是一种更深层次的数据分析[6-10]。
  数据挖掘技术在自身发展过程中,涉及众多学科技术,包括数据库技术、统计学、机器学习、信息科学、数据可视化以及高性能计算、模式识别、神经网络、人工智能、图像与信号处理等其他科学。
  3 数据挖掘在税务信息化中的应用
  3.1 数据挖掘的定位
  根据税收工作的实际情况,数据挖掘应从两方面定位:
  1) 从技术角度上看,数据挖掘是直接服务于数据分析工作的技术手段,它不仅是税收数据分析的有力工具,而且代表着税收分析的发展方向,即智能化与自动化的决策支持。
  2) 从政策角度上看,税收数据挖掘不仅是技术实现的过程,同时也是业务精细化与科学化的体现。数据挖掘是税收工作的眼睛,它发现税收征管的薄弱环节,成为税收分析、纳税评估、税务稽查、税收监控这一良性互动机制的发动机和触发器,直接关系到互动机制的运行质量。
  3.2 数据挖掘的目标
  根据税收数据挖掘的定位,其主要目标应该包括:
  1) 评价纳税行为。通过对纳税人纳税申报、办理涉税事项、发票使用等一系列数据实施监控,进行挖掘分析,建立税源检测数据模型,可以帮助税务机关对纳税人的纳税行为进行合理的评价。
  2) 监控执法过程。随着征管数据的省级集中,有了对征管流程进行监控的数据基础。通过梳理与整合,运用挖掘技术建立执法行为监控体系,监控税务部门的执法行为,监督管理流程,对税收执法疑点,做到事前、事中和事后的监控,规范执法行为。
  3) 提供决策支持。数据挖掘技术不仅可发现税收管理中的瑕疵,同时也为领导决策提供智能支持:通过数据的分类处理与分析,可全面分析宏观税负、行业税负等指标,了解税收收入总量增减的变化,科学判断税收收入增减的原因;通过数据概貌分析,可以得到一个地区税收增减的总体状况等等。
  4) 优化纳税服务。运用现代数据挖掘手段,展开纳税服务数据的关联性分析,可以了解纳税人涉税事项的发生频率以及涉税事项之间的关联程度,可以为办税服务厅的窗口设置、办税流程的设定提供数据支持,从而科学安排服务流程,提高服务水平。
  3.3 数据挖掘的职能
  税务部门目前的机构设置具有职能导向型、综合管理与专业管理相交叉的特点,目前还没有明确相应的数据挖掘机构,数据挖掘工作存在多管齐下、职能交叉的混乱局面。而数据挖掘又是一项系统工程,需要多部门之间有机协调配合。因此,要明确相应机构的职能,规范工作流程,落实不同专长的人员分步实施。
  数据挖掘要求高,难度大,既需要理论知识修养,也需要实践经验,从事数据挖掘的人通常都需要岗前培训,成立专门的数据挖掘机构难以短时间发挥功能。本着因地制宜的原则可以采用下面的数据挖掘职能分工的办法。
  首先进行业务分析。业务分析的好坏直接影响着数据挖掘的整体成效,该职能由流转税、所得税、进出口税收、国际税收部门与征管部门负责,他们将根据各业务对象提出用于数据定义和挖掘算法的业务需求。
  其次是数据分析。数据的分析工作由税收统计部门与数据处理部门联合负责,该职能要求精通数据分析技术,并对数学工具有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的数据技术。
  再次是数据管理。信息中心负责数据的抽取和整理,该职能部门精通数据管理技术,熟悉数据预处理技术,能够建立数据仓库,并能根据要求从数据库或数据仓库中抽取数据以及对数据进行清洗与转换。
  最后是综合协调。数据处理部门负责数据挖掘项目的统筹管理,编排项目时间表、制作挖掘任务书,协调各税收部门间的事务,组织数据挖掘成果的应用。
  3.4 数据挖掘的流程
  数据挖掘是一个完整的过程,其基本流程如图1所示。
  1) 确定对象。要考虑该对象存在哪些问题,哪些工作可由挖掘系统自动完成、挖掘的目标是什么等等。清晰地定义出业务需求是数据挖掘的重要步骤,数据挖掘之前,就应当明确需要哪些税收数据、数据是怎样展现。
  2) 数据准备。一是数据的选择:根据挖掘目标从原始数据中选择相关数据集,并将不同数据源中的数据集中起来。二是数据的预处理:研究数据的质量,确定将要进行的挖掘操作类型,对选择的数据进行清洗,使其变成干净的数据。三是数据的降维与转换:降维是减少变量的数目,并设法将数据转换到一个更容易找到的空间上。转换的方法包括以期望的方式组织数据,把一种类型的数据转换成另一种类型,最终目的就是将数据转换成适于数据挖掘处理的形式。
  3) 数据挖掘。这一阶段需要根据前面的工作进行相应的完善,选择合适的挖掘算法,并将挖掘算法应用于准备好的数据集,使用合适的数据挖掘算法进行数据分析。首先确定实现数据挖掘目标的数据挖掘功能,包括概念描述、分类、聚类、关联规则等;其次选择合适的模式搜索算法,包括模型和参数的确定,算法和数据挖掘目标的一致性保障等。
  4) 结果分析。根据使用者的决策目的对数据挖掘的结果进行评价,将有用的结果以可视化的技术展示给使用者,让使用者对挖掘结果做出解释,同时评价模型的有效性。
  5) 知识同化。将挖掘所得到的知识集成到税收工作实际中,并跟踪知识运用的具体成效。
  3.5 数据挖掘的方法
  数据挖掘需要使用不同的算法来完成不同的任务。不同的算法都是为了建立合适的数据模型,利用算法分析数据,并确定与所分析数据的特征最符合的模型。通常数据挖掘模型可分为预测型和描述型两类。如图2所示,每类模型都包含一些最常用的数据挖掘任务。
  利用从不同数据中发现的已知结果,预测型模型对数据的值进行预测。预测型建模可能是基于使用其他的历史数据。例如,一户企业被归入税收欺诈队列,可能不是因为该企业自己的历史纳税数据信息,而是因为其纳税额增减周期与其他有欺诈行为的企业相似,而被归入了欺诈队列。预测模型能够完成的挖掘任务包括分类、回归、时间序列分析和预测。
  描述型模型对数据中的模式或关系进行辨识,与预测型模型不同,描述型模型提供了一种探索被分析数据性质的方法,而不是预测新的性质。聚类、汇总(也叫特征化或泛化)、关联规则和序列发现在本质上都通常被视为是描述型的。
  以税收预测为例,常用的具体方法有:
  1) 一元线性回归预测法。一无线性回归预测是用一无线性回归模型,对具有线性趋势的税收问题,只使用一个影响因素所作的预测。
  2) 多元线性回归预测法。多元线性回归预测法是用多元线性回归模型,对具有线性趋势的税收问题所作的预测。
  3) 非线性预测法。非线性预测法是对利用非统性模型进行预测的一系列方法的总称。最常用的非线性预测法有二次曲线预测法、指数曲线预测法等。二次曲线预测法是在确认税收与某个经济变量之间存在二次曲线趋势时,利用二次曲线模型预测税收收入的方法。指数曲线预测法是用指数曲线模型对呈固定速度增长的税收问题预测的模型。
  4) 指数平滑预测法。指数平滑是画拟合曲线的一种方法,同时还可以对将来进行预测。指数平滑就是将最近的观察数据赋予较高的权重,较早的数据赋予相对较低的权重,权重以一个常数的比率进行几何递减,使得较近的数据对将来的预测分析起的作用大一些。根据用户选择的参数不同,可以分为平稳时间序列指数平滑、趋势时间序列指数平滑,和季节周期性指数平滑。
  5) 神经网络预测法。神经网络近来越来越受到人们的关注,因为它为解决较大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。
  
  
  
  图2 数据挖掘模型分类
  
  上述列出的预测方法在本质上也可以分为两大类:一类是解释性预测方法,即找出被预测量的各影响因素,建立回归分析模型;另一类为时间序列分析方法,只依赖于被预测量的历史观测数据,通过序列分析,找出其顺序变化计算机系统应用规律。
  在税收收入预测中采取的方法可以根据税收收入和其它经济因素之间的关系,用税收历史数据和各种经济指标数据,建立税收收入与GDP、工业增加值、商业增加值、消费、投资、价格、净出口等相关经济指标的多元回归模型、非线性回归模型、神经元网络或其它模型;在建模过程中要不断调整对因变量的选择,以获得一个比较好的模型。最后根据已知的数据来预测未来指定时间内的税收收入的可能值及其变化趋势。实际上为了得到满足需要的结果,经常采取几种方法的组合进行处理,回归与神经元网络的组合就是一种很好的选择。
  3.6 数据挖掘的应用
  税务行业在国民经济中所处的重要位置是不言而喻的,而税收业务最终都体现在数字上。根据现有的应用情况来看,主要表现在以下几个方面:
  1) 纳税评估:根据税收征管中获得的纳税人的生产经营、财务核算情况等主要指标信息,对纳税情况的真实性、准确性、合法性进行审核、分析和综合评定。通过检查或稽查,及时发现、纠正和处理纳税行为中的错误,并对异常申报等专项问题进行调查研究和分析评价,为征收、管理、稽查提供工作重点和措施建议,从而对征纳情况进行全面、实时监控。
  2) 纳税人纳税信用评估:为纳税人建立一个信用评估打分系统,然后结合税务登记、纳税情况等信息建立一个纳税信用评估模型,对新办登记的纳税人进行信用评估,得分较低者作为重点管理和检查对象。
  3) 税务机关业绩评估:考察税务机关的业绩通常涉及到很多指标,但有些指标互相重叠、互相依赖,如果将它们同等对待,考察结果可能有失公正。可以使用一些统计方法,将大量的指标变量压缩到较少的几个综合性指标上去,并且这些综合性指标能够充分反映原来所有指标变量所反映的信息,然后使用这些综合性指标对税务机关进行业绩评估。
  4) 税源预测:根据可能影响税源的指标(如:本地区的国内生产总值、投资总额、社会消费品总额、工业附加值等)的历史数据,利用统计方法预测下一年度的税源,作为制订税收计划的依据。
  5) 税收收入预测:在某地区前几年税收收入数据的基础上,利用时间序列预测下一年度的税收收入;或根据影响税收收入的其他指标利用多元线性回归预测下一年度的税收收入。税收收入的预测值可作为制订下一年度税收收入计划的依据。
  6) 纳税人偷税行为预测:根据纳税人的登记信息、纳税信息、财务指标、以往的偷税记录等信息,创建预测纳税人可能有偷税行为的分类模型,并以此模型作为稽查选案的依据。
  7) 纳税人分类:根据纳税人的税务登记、纳税情况、偷税行为记录等信息对纳税人进行分类,使同一类型中的纳税人尽可能相似,不同类型的纳税人尽可能有明显的差异,征收管理人员可以根据每一种类型的特点和不同类型之间的差异,对纳税人实行不同的管理办法,从而提高管理质量。
  3.7 数据挖掘应用存在的问题
  数据挖掘技术在税收领域的应用无论是广度还是深度都非常有限。欲使之在全行业范围内广泛应用,还需必须关注以下几个问题:
  1) 数据资源聚积面要有深度和广度。除传统的数据形式外,对文本、声音、影像等一些数据资源,也必须广泛搜集、设计、梳理,因为在政务行为评估中,这些数据是非常宝贵的。不同行业之间的数据共享是海量数据聚积的重要源泉。由于受我国信息化发展水平和业务壁垒的制约,行业之间甚至是同行业不同部门之间的数据信息还不能共享,信息孤岛现象普遍存在。解决数据资源的“虚假匮乏”问题是一项基础性的工作。
  2) 数据挖掘人力资源严重缺乏。数据挖掘过程是分步实现的,每步需要有不同专长的人员。如果人力资源不够完备,就难以保证数据挖掘的成功。
  3) 对数据挖掘的认识亟待提高。对大多数人来说,数据挖掘是个很陌生的名词,它对税收业务有着什么样的影响,还是知之甚少。有人认为数据挖掘就是数理统计,没什么新内容;也有人认为数据挖掘就是数据库在线查询、联机分析等。如果管理者对数据挖掘没有较为清醒的认识,数据挖掘和数据分析就很难发挥应有的作用。
  4 结束语
  数据挖掘技术融合多学科知识,把数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。面对税务部门不断提出的业务新需求,数据挖掘技术还需要不断探索、不断完善、循序渐进。随着税务信息化逐步走向深入,数据挖掘技术在税务部门的应用中将发挥更大的作用,具有广阔的前景。
  
  参考文献:
  [1] 叶向东. 数据挖掘.税收分析与税收决策的利器[J].安徽税务, 2003, 9:38-39.
  [2] 张峰. 数据挖掘在税收分析中的应用[J].中国西部科技,2007,8:97-98.
  [3] 李继嵬, 刘书明, 李春平. 数据挖掘技术在税收预测分析中的应用[J]. 计算机系统应用, 2006,9:61-64,68.
  [4] 柯俊. 税收数据挖掘五方构想[J]. 每周电脑报, 2007,13:24,26.
  [5] 左春荣, 唐成成. 数据挖掘技术在税收征管信息化中的应用[J]. 中国管理信息化(综合版). 2007,1:61-63.
  [6] Jiawei Han, Micheline Kamber(加)著, 范明,小峰等译.数据挖掘概念与技术[M].2001.
  [7] W.H.Inmon(美)著, 王志海, 林友芳等译. 数据仓库[M].机械工业出版社,2003.
  [8] Mehmed Kantrdzic. DATA MINING-Concepts,Models,Methods and Algorithms[M]. 北京:清华大学出版社, 2003.
  [9] 陈文伟, 黄金才, 赵新昱. 数据挖掘技术[M]. 北京: 北京工业大学出版社, 2002.
  [10] 刘红岩, 陈剑, 陈国青.数据挖掘中分类算法综述 [J].清华大学学报(自然科学版), 2002,6:727-730.
其他文献
文化遗产是中华民族灿烂文化的重要载体和历史传承,是维系中华民族情感的精神纽带,是不可再生的珍贵资源。在大力建设社会主义先进文化、构建社会主义和谐社会的历史新时期,
[摘要]古建筑壁画即泥水画是由宫廷壁画发展演变而来的,是宫廷画师自两宋时期壁画衰退以后的“营生活计”。罗定有过千处的古建筑将泥水画作为建筑的附饰部分,其艺术水平在晚清至中华民国中期达到相当高的水平。本文以罗定古建筑泥水画为例,对古建筑泥水画的表现手法、题材内容及其艺术价值等进行探索。  [关键词]古建筑;泥水画;艺术特色  [中图分类号]J222 [文献标识码]A [文章编号]10
按照开放、汇聚、融合的原则组建专家团队研究知识产权 5月26日,重庆市协同创新知识产权研究中心在重庆大学挂牌。该中心是全国首个协同创新知识产权研究中心,也是全国第一个将
通过对几款网络克隆软件的特点、使用方法进行比较,提出了适合学校公共计算机机房多机快速安装的方案.为学校公共计算机机房的维护和管理带来了方便。
徒齿穿越是指呈程徒步,中间可能跨越山岭、丛林、沙漠、雪域、溪流或峡谷等地貌的一种探险活动。团队精神 集体穿越是表现团队合作精神的好机会,成功、愉快、顺利的穿越是要靠
Ali文件是Ada编译工具生成的文本文件。该文对M1750Ada编译器所生成的Ali文件作了具体的分析,并介绍了用于Ali分析的工具和Ali的应用,旨在供从事Ada编译器研究和Ada语言编码的
2012年8月14日,从第23届西北旅游协作区年会上获悉,西北五省区和新疆生产建设兵团将联手开发和推广丝绸之路旅游线路、黄河金岸旅游线路和穆斯林旅游市场。过去的22年中,西北
<正> 我县经济开发公司畜牧水产分公司肉鸭场,于4月27日进栏樱桃谷雏鸭1750只,养至5月18日,整群仔鸭上喙部出现特征性的萎缩、变形、喙边缘呈波浪状,严重的上翻。5月20日开始
2012年5月18日,2012中国旅游日论坛在浙江宁海举行。论坛上,中国27个徐霞客游线节点城市达成共识,共同发表《徐霞客游线申报世界线性文化遗产共识》,并正式启动了申遗的相关工作
弓形虫病流行病学及防疫措施研究进展李秉鸿广西兽医研究所530001刚地弓形虫(Toxoplasmagondi)是寄生于人类和许多动物组织细胞内的原虫,可侵犯脊椎动物的多种细胞,并在细胞内繁殖,最后破坏宿主细胞,释放