异常数据挖掘算法研究及其在税务上的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:suyu_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要介绍了异常挖掘和聚类分析在税务行业的应用。 随着数据库技术在税收上的的普及和应用,税务机关积累了大量的原始数据,然而却不能有效的利用这些资源。而如何从这些数据中得到有用的知识,正是数据挖掘要解决的问题。数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中其主要的目的,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。 异常挖掘是数据挖掘中的重要研究方面之一,其作用就是发现数据中的“小模式”,即数据集中显著不同于其它数据的对象。这在税务上是非常有效的数据挖掘方式。特殊的生产经营模式、规模特别大的纳税企业(也就是税务行业所谓的重点税源)、甚至各种涉税犯罪都会形成异常的数据,而这些数据正是税务机关关注的重点。如何快速有效地找到这些特殊的数据,对税务行业有着重要的意义。本文在税务行业的异常数据挖掘方面进行了探讨。 本文首先讲述了数据挖掘的基本概念和方法,介绍了数据挖掘研究的一般对象和典型应用;具体研究了聚类和异常挖掘技术,说明了评价聚类和异常挖掘算法的一般准则,介绍了一些典型的聚类和异常挖掘算法。具体回顾了异常挖掘的研究发展及当前研究动态,介绍了基于距离、基于密度、基于偏离以及高维数据等孤立点发现中的主要算法,具体分析了各个算法的主要内容,在此基础上总结比较了各个算法的优劣及其适用范围。 本文的重点是使用一种基于密度的方法对税务机关的税收数据进行聚类分析,发现其中有意义的模型以及异常的数据。根据税务行业的特点,异常挖掘具有非常广阔的应用前景。本文在研究现有聚类分析和异常挖掘算法的基础上,从税务行业的实际需求出发,根据税务行业数据的特点,对基于孤立点因
其他文献
<正>在社会救助方式上,过去各级政府一直采取重物质、轻精神的服务,在救助目标上主要是托底线、保生存的模式,但随着社会经济发展,单纯的物质救助越来越难以满足救助对象的多
目的:调查慢性前列腺炎(CP)基本证型的分布频率,为进一步研究提供依据。方法:制定调查表,在北京3家医院的中医男科收集慢性前列腺炎连续病例,采用Epidata 3.02建立数据库,SPS
战略性新兴产业是涉及国家根本竞争力、国家安全、国家战略目标实现,影响国家政治地位的产业。本文在对国内外生物能源产业的发展模式和原料的收购模式分析基础上,结合中原经
企业的生产物流是企业物流的重要组成部分,它与供应物流(即输入物流)和销售物流(即输出物流)共同构成企业物流系统。在以制造为主的企业,生产物流是企业物流的主体。是伴随生