论文部分内容阅读
1.引言
随着税务系统信息化事业的发展,已经形成了数据高度集中的面向纳税人和税管员的交易系统,产生了大量的业务数据,传统的税收分析方法已经满足不了新形势下税务管理的需要。由于数据挖掘技术可以在较大程度上解决目前数据、信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,并通过预测未来趋势及行为,做出前摄的、基于知识的决策,因此,数据挖掘技术为分析人员提供了强有力的信息支持,帮助分析人员做出正确的判断,科学的决策。将数据挖掘技术运用到税收工作中以支持税收决策和数据分析,提高工作质量和效率已成为现实的需要。
2.数据挖掘技术
2.1数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。数据挖掘是一种新兴的多学科交叉领域,源于数据库系统、数据仓库、统计学、机器学习、算法设计、数据可视化、信息检索和高性能计算等领域。
2.2常用的数据挖掘技术
数据挖掘一般可以分为三种类型,它们是关联法、分类法和聚类法,每种类型都有若干种适合于此类型的算法,目前大致的类和算法如图1。
关联法又称关联规则,它是数据挖掘中的基本方法,主要目的是寻找数据间的关联性。事物间存在着多种相关性,我们可以通过相关规则找出其内部相关性并以模式或规则形式将其展示出来。关联规则的常用算法是Apriori 算法,这是一种统计型算法,它的效率高、效果好,是目前最流行的挖掘算法之一。
分类法也可分类分析法,是寻找分类数据中的每类数据的规律,事物可以按其表象分为不同的类,而这些类间具有内在的本质差异。在分类法的基础上可以进一步推演以实现推测未来的目标,所以分类与预测往往结合在一起。分类法中的算法很多,有决策树算法、粗集算法、贝叶斯算法、人工神经网络算法、回归分析算法及差异算法等多种算法,前四种算法比较简单、有效,是目前分类算法中最常用的算法。
聚类法又称聚类分析法,它是对一组数据进行聚类的方法,聚类后的数据即构成了一组分类。聚类标准是以数据的表象(即数据属性值)为依据的,聚类的工作是将一组数据按其表象而将相近的归并成类,最终形成若干类,在类内的数据具有表象的相似性,而类间数据具有表象相异性。聚类法中的算法也很多,有遗传算法、划分法、层次法、基于密度方法、基于网格方法等,前三种算法比较简单实用,是目前聚类法中最常用的算法。
3.基于数据挖掘的税收分析
税收分析系统的数据挖掘关键是采用合适的数据挖掘算法对税收分析的主题构建模型,接下来将以关联法进行税务稽查选案分析为例,来说明数据挖掘技术在税收分析系统的应用。
3.1关联规则相关概念
关联规则是为了挖掘出隐藏在数据中相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则。挖掘关联规则的基本思路:给定一个事务集,挖掘关联规则的任务就是生成支持度(support)和置信度(confidence)分别大于用户给定的最小支持度和最小置信度以及相关度(correlation)大于1的关联规则。满足最小支持度、最小置信度和相关度要求的规则称为强规则。寻找出所有有效的强规则就是关联规则数据挖掘要完成的任务。
假定有1000个事件,其中发生X行为的有640个,不发生X行为的360个;发生X行为时Y行为也发生的情况有380个,Y行为不发生的情况有260个;不发生X行为时发生Y行为的情况有110个,Y行为也不发生的情况有250个,那么X事件的支持度为640/1000=64%,Y事件的支持度为(380+110)/1000=49%;X事件对Y事件的置信度为380/640=59.38%,非X事件对Y事件的置信度为110/360=30.56%;则X事件对Y事件的相关度为(380/1000)/(64%*49%)=121.17%;非X事件对Y事件的相关度为(110/1000)/(36%*49%)=62.36%。
3.2关联规则挖掘的基本步骤
基于关联规则的数据挖掘主要任务是关联规则的发现,一般由发现频繁项目集和生成强规则两部分组成。具体步骤为:根据用户设定的minsupp,找出存在于事务数据库中所有的频繁项集,即满足支持度不小于minsupp的项集。频繁项集间可能具有包含关系,在生成强关联规则时利用相关度筛除被包含频繁项集。
根据用户设定的minconf,在颇繁项集中寻找置信度不小于minconf且相关度大于1的关联规则。
3.3在税务分析中的应用
随着税务信息化建设的进行,稽查案件电子化管理已经得到普及,这不仅提高了税务稽查部门的办事效率,还增加了稽查过程的透明性,减少了稽查人员违纪的可能性。同时,数据库中也积累了大量的涉税违法违纪数据,各种违法违纪手段之间存在着隐藏的规则。找出违法违纪手段之间的关联性可以帮助稽查人员在稽查工作中有目的的去查相关账薄记录。如: M类型与N类型存在关联规则;则如果企业发现存在M类型的行为,就应该重点检查是否存在N类型的行为。
1.稽查数据示例
通过对稽查数据中企事业纳税人案件数据进行关联规则分析,得出如下结果,如表1、表2:
2.实例结果分析
通过关联规则挖掘,提取出符合实际税务稽查工作规律,得到税务稽查人员的认可,在稽查工作中有一定的实用价值。存在相关度不大于1的规则表明:所挖掘的数据存在一定”噪音”,影响了所获得的频繁集的质量。出现上述现象,其原因如下:一、数据库中数据在录人时存在一定的随意性,如将多种违法违纪现象合并成一种,影响了原始数据的真实性和参考价值。二、违法违纪手段分类比较粗糙,只使用了数据库存在的违法违纪行为,并未对涉税违法违纪行为进行细致分类。三、涉案纳税人主要该局所管辖规模较大的纳税人,不能完全代表所有涉税违法违纪行为。鉴于上述情况,收集范围更多更全面的数据用来提取有用的信息和把关联规则应用到其他涉税业务是今后研究的方向。
4.结束语
超大规模数据库的出现、先进的计算机技术、管理的实际需要和对这些数据的精深计算能力促成了数据挖掘的诞生、发展和应用,而数据挖掘技术的应用为信息时代的税收管理和决策提供了强有力的支持,随着税收分析理念和税收分析方法的不断发展,数据挖掘在税收分析中发挥着越来越重要的作用。
参 考 文 献
1王敏,谭荣华,李伟,税收经济分析系统的设计与实现[J].税务研究,2005.7.
2赵亚俐.税务信息化的沉思[J].中国电子商务.2003.10:52-55.
3陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,2002.8
4徐洁磐.数据仓库与决策支持系统.北京:科学出版社,2005
5李晓毅、徐盆枚.关联规则的算法分析[J]辽宁工程大学学报2006.2:318-320■
随着税务系统信息化事业的发展,已经形成了数据高度集中的面向纳税人和税管员的交易系统,产生了大量的业务数据,传统的税收分析方法已经满足不了新形势下税务管理的需要。由于数据挖掘技术可以在较大程度上解决目前数据、信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,并通过预测未来趋势及行为,做出前摄的、基于知识的决策,因此,数据挖掘技术为分析人员提供了强有力的信息支持,帮助分析人员做出正确的判断,科学的决策。将数据挖掘技术运用到税收工作中以支持税收决策和数据分析,提高工作质量和效率已成为现实的需要。
2.数据挖掘技术
2.1数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。数据挖掘是一种新兴的多学科交叉领域,源于数据库系统、数据仓库、统计学、机器学习、算法设计、数据可视化、信息检索和高性能计算等领域。
2.2常用的数据挖掘技术
数据挖掘一般可以分为三种类型,它们是关联法、分类法和聚类法,每种类型都有若干种适合于此类型的算法,目前大致的类和算法如图1。
关联法又称关联规则,它是数据挖掘中的基本方法,主要目的是寻找数据间的关联性。事物间存在着多种相关性,我们可以通过相关规则找出其内部相关性并以模式或规则形式将其展示出来。关联规则的常用算法是Apriori 算法,这是一种统计型算法,它的效率高、效果好,是目前最流行的挖掘算法之一。
分类法也可分类分析法,是寻找分类数据中的每类数据的规律,事物可以按其表象分为不同的类,而这些类间具有内在的本质差异。在分类法的基础上可以进一步推演以实现推测未来的目标,所以分类与预测往往结合在一起。分类法中的算法很多,有决策树算法、粗集算法、贝叶斯算法、人工神经网络算法、回归分析算法及差异算法等多种算法,前四种算法比较简单、有效,是目前分类算法中最常用的算法。
聚类法又称聚类分析法,它是对一组数据进行聚类的方法,聚类后的数据即构成了一组分类。聚类标准是以数据的表象(即数据属性值)为依据的,聚类的工作是将一组数据按其表象而将相近的归并成类,最终形成若干类,在类内的数据具有表象的相似性,而类间数据具有表象相异性。聚类法中的算法也很多,有遗传算法、划分法、层次法、基于密度方法、基于网格方法等,前三种算法比较简单实用,是目前聚类法中最常用的算法。
3.基于数据挖掘的税收分析
税收分析系统的数据挖掘关键是采用合适的数据挖掘算法对税收分析的主题构建模型,接下来将以关联法进行税务稽查选案分析为例,来说明数据挖掘技术在税收分析系统的应用。
3.1关联规则相关概念
关联规则是为了挖掘出隐藏在数据中相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则。挖掘关联规则的基本思路:给定一个事务集,挖掘关联规则的任务就是生成支持度(support)和置信度(confidence)分别大于用户给定的最小支持度和最小置信度以及相关度(correlation)大于1的关联规则。满足最小支持度、最小置信度和相关度要求的规则称为强规则。寻找出所有有效的强规则就是关联规则数据挖掘要完成的任务。
假定有1000个事件,其中发生X行为的有640个,不发生X行为的360个;发生X行为时Y行为也发生的情况有380个,Y行为不发生的情况有260个;不发生X行为时发生Y行为的情况有110个,Y行为也不发生的情况有250个,那么X事件的支持度为640/1000=64%,Y事件的支持度为(380+110)/1000=49%;X事件对Y事件的置信度为380/640=59.38%,非X事件对Y事件的置信度为110/360=30.56%;则X事件对Y事件的相关度为(380/1000)/(64%*49%)=121.17%;非X事件对Y事件的相关度为(110/1000)/(36%*49%)=62.36%。
3.2关联规则挖掘的基本步骤
基于关联规则的数据挖掘主要任务是关联规则的发现,一般由发现频繁项目集和生成强规则两部分组成。具体步骤为:根据用户设定的minsupp,找出存在于事务数据库中所有的频繁项集,即满足支持度不小于minsupp的项集。频繁项集间可能具有包含关系,在生成强关联规则时利用相关度筛除被包含频繁项集。
根据用户设定的minconf,在颇繁项集中寻找置信度不小于minconf且相关度大于1的关联规则。
3.3在税务分析中的应用
随着税务信息化建设的进行,稽查案件电子化管理已经得到普及,这不仅提高了税务稽查部门的办事效率,还增加了稽查过程的透明性,减少了稽查人员违纪的可能性。同时,数据库中也积累了大量的涉税违法违纪数据,各种违法违纪手段之间存在着隐藏的规则。找出违法违纪手段之间的关联性可以帮助稽查人员在稽查工作中有目的的去查相关账薄记录。如: M类型与N类型存在关联规则;则如果企业发现存在M类型的行为,就应该重点检查是否存在N类型的行为。
1.稽查数据示例
通过对稽查数据中企事业纳税人案件数据进行关联规则分析,得出如下结果,如表1、表2:
2.实例结果分析
通过关联规则挖掘,提取出符合实际税务稽查工作规律,得到税务稽查人员的认可,在稽查工作中有一定的实用价值。存在相关度不大于1的规则表明:所挖掘的数据存在一定”噪音”,影响了所获得的频繁集的质量。出现上述现象,其原因如下:一、数据库中数据在录人时存在一定的随意性,如将多种违法违纪现象合并成一种,影响了原始数据的真实性和参考价值。二、违法违纪手段分类比较粗糙,只使用了数据库存在的违法违纪行为,并未对涉税违法违纪行为进行细致分类。三、涉案纳税人主要该局所管辖规模较大的纳税人,不能完全代表所有涉税违法违纪行为。鉴于上述情况,收集范围更多更全面的数据用来提取有用的信息和把关联规则应用到其他涉税业务是今后研究的方向。
4.结束语
超大规模数据库的出现、先进的计算机技术、管理的实际需要和对这些数据的精深计算能力促成了数据挖掘的诞生、发展和应用,而数据挖掘技术的应用为信息时代的税收管理和决策提供了强有力的支持,随着税收分析理念和税收分析方法的不断发展,数据挖掘在税收分析中发挥着越来越重要的作用。
参 考 文 献
1王敏,谭荣华,李伟,税收经济分析系统的设计与实现[J].税务研究,2005.7.
2赵亚俐.税务信息化的沉思[J].中国电子商务.2003.10:52-55.
3陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,2002.8
4徐洁磐.数据仓库与决策支持系统.北京:科学出版社,2005
5李晓毅、徐盆枚.关联规则的算法分析[J]辽宁工程大学学报2006.2:318-320■