论文部分内容阅读
随着计算机、通信、人工智能等技术的不断发展,社会信息化程度不断加深。商务信息化、医疗信息化、政务信息化……各种信息化充斥于人们的生活中,使我们生活的社会也成为了信息化的社会。信息化深刻地影响着人们的工作、学习和生活,一方面带来的是多种多样的便利,另一方面也产生了海量的数据,“数据膨胀但是知识贫乏”的问题日益突出。而在知识经济时代,知识创造财富,如何掌握最新的知识成为了竞争的焦点。因此,从海量信息背后挖掘隐藏的、以前未知的知识,成为了当今研究与应用的新热点。作为为国聚财、为民收税的税务部门,同样也面临着海量的涉税数据无法深度加工利用,浪费了许多有价值信息的严峻问题。随着“金税三期”进程的不断推进,税务部门的数据由省级集中进一步上升为全国的数据大集中,税务征管数据库中积累了大量内部与外部的数据。但是当前税务部门的这些数据的处理与分析仅仅局限在查询、汇总、简单对比等较基础的应用,缺乏对数据蕴含的信息的深层次挖掘。本文力求在税务管理工作中引入数据挖掘技术,来提高税务决策的科学性以及纳税服务的质量,并将研究的重点放在了聚类算法在税源监控中的应用上。税源监控作为一种基础性税收管理活动,贯穿于纳税申报、纳税服务与税务稽核等流程中。掌握最全的税源信息,实施严密的监控措施,可以有效保证税收的应收尽收,实现国家宏观政策。聚类算法作为数据挖掘的一种技术,已被人们广泛地应用于医疗、商业、生物等多个领域。将聚类算法应用于税源监控中,可以有效提高税源分类的科学性,并能帮助税务管理人员有针对性地制定不同的税源管理决策,对于税务部门工作效率和管理水平的提高具有重要的现实意义。本文在总结国内外研究与应用经验的基础上,概括总结了数据挖掘技术、聚类算法、K-means聚类分析和税源监控等方面的知识,并将两方面知识结合起来,分析了聚类算法在税源监控中全面应用的必要性与可行性,设计了聚类算法在税源监控应用的模型。然后本文使用SPSS Clementine12.0软件并严格按照CRISP-DM“跨行业数据挖掘的标准化过程”建立模型,按照本文选取的数据指标体系,抽取了大智慧软件相关的财务数据,对166个纳税人进行了聚类的案例分析,将其分为一般税源、重点税源以及优质税源三大类,并有针对性地对各类税源提出了税务监管建议。最后本文在归纳总结聚类算法在税源管理中应用的基础上,为聚类技术在税源监控中的全面应用提出了相关的建议。