论文部分内容阅读
本文主要介绍了异常挖掘和聚类分析在税务行业的应用。 随着数据库技术在税收上的的普及和应用,税务机关积累了大量的原始数据,然而却不能有效的利用这些资源。而如何从这些数据中得到有用的知识,正是数据挖掘要解决的问题。数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中其主要的目的,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。 异常挖掘是数据挖掘中的重要研究方面之一,其作用就是发现数据中的“小模式”,即数据集中显著不同于其它数据的对象。这在税务上是非常有效的数据挖掘方式。特殊的生产经营模式、规模特别大的纳税企业(也就是税务行业所谓的重点税源)、甚至各种涉税犯罪都会形成异常的数据,而这些数据正是税务机关关注的重点。如何快速有效地找到这些特殊的数据,对税务行业有着重要的意义。本文在税务行业的异常数据挖掘方面进行了探讨。 本文首先讲述了数据挖掘的基本概念和方法,介绍了数据挖掘研究的一般对象和典型应用;具体研究了聚类和异常挖掘技术,说明了评价聚类和异常挖掘算法的一般准则,介绍了一些典型的聚类和异常挖掘算法。具体回顾了异常挖掘的研究发展及当前研究动态,介绍了基于距离、基于密度、基于偏离以及高维数据等孤立点发现中的主要算法,具体分析了各个算法的主要内容,在此基础上总结比较了各个算法的优劣及其适用范围。 本文的重点是使用一种基于密度的方法对税务机关的税收数据进行聚类分析,发现其中有意义的模型以及异常的数据。根据税务行业的特点,异常挖掘具有非常广阔的应用前景。本文在研究现有聚类分析和异常挖掘算法的基础上,从税务行业的实际需求出发,根据税务行业数据的特点,对基于孤立点因