数据挖掘技术在纳税评估中的应用研究

来源 :同济大学 | 被引量 : 4次 | 上传用户:davidrandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,DM)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。分类分析是数据挖掘技术研究的一个重要方向。常用的分类模型有决策树、神经网络、遗传算法、粗糙集模型、统计模型等。决策树学习算法在数据挖掘技术中具有很重要的作用,本文研究了决策树学习算法中最为重要的一种ID3(Information Definition)算法,并引入用户兴趣度的概念定义了ID3的改进算法,在一定程度上解决了决策支持过程中大数据掩盖小数据的问题。 本文在概述数据挖掘技术和分类算法的基础上,提出了在传统ID3算法中引入用户兴趣度的概念来改进ID3算法,即在ID3算法的信息熵计算公式中,对信息量加权和增加用户兴趣度,使得算法不仅依赖于训练样本建立分类模型,而是在训练样本的基础上对具体属性加入先验知识调节其对分类的信息量,提高分类的准确性,并用实例验证了改进QID3算法的有效性。 此外,本文采用面向对象技术,用C++语言实现了ID3算法及其改进QID3算法。并且在此基础上开发了一个以改进ID3算法为核心的决策树生成系统(分类系统)。该分类系统面向实际应用,实现了从数据导入到生成规则的完整数据挖掘步骤,并具有处理属性值缺失数据、连续属性数据等功能。 本文还根据国税系统的实际需要,将所开发的分类系统应用于纳税评估系统,通过对国税征税数据进行分析和挖掘,生成对纳税申报不准疑点对象的有用的“分类规则”,验证了系统的可行性和有效性。对提高纳税评估的科学性、准确性具有实用价值,并具有经济效益和社会效益。
其他文献
针对一种用于交流发电的并列转子混合励磁同步发电机,研究了Halbach永磁转子和隐极电励磁转子2种转子磁极匹配对发电机输出特性的影响。基于2种转子的气隙磁场解析模型,一方
目的探究银杏叶提取物联合富马酸比索洛尔对不稳定型心绞痛患者心电图及血清单核细胞趋化蛋白-1(MCP-1)水平的影响。方法选取收治的不稳定型心绞痛患者88例,根据治疗方案不同
目的探讨全胃切除术后食管吻合口漏的危险因素,以期为该并发症的预防提供参考。方法回顾性总结2017年1月~2017年12月南京医科大学第一附属医院胃外科收治的221例行腹腔镜或开
目的 观察稳心颗粒联合胺碘酮在心律失常治疗中的临床效果以及对血清指标的影响。方法 选取2016年5月~2018年5月期间在我院治疗的心律失常患者98例,随机分为观察组和对照组各
共同海损(General Average),是指在同一海上航程中,当船舶、货物和其他财产遭遇共同危险时,为了共同安全,有意而合理地采取措施所直接造成的特殊牺牲、支付的特殊费用,由各受益方
目的探讨复方三七散外敷防治静脉留置针输注5-氟尿嘧啶(5-Fu)所致静脉炎的效果,为临床提供更好地防治化疗性静脉炎的药物和方法。方法将136例输注5-Fu行化疗的乳腺癌患者随机
应用电子显微镜观察番茄成熟过程中果皮叶绿体向有色体的发育过程。绿熟果的叶绿体具有典型完整的结构,在成熟过程中,类囊体膜系统迅速解体消失,嗜锇球明显增多和增大,嗜锇球可能
基于对我校高中化学元素化合物教与学现状的反思和对新课程改革形势的积极响应,本研究根据建构主义学习理论、互动教育理论和有效教学原则,经过两年的教学思考和实践,从以下两个
本研究结合文化研究的相关方法,对自20世纪90年代以来长盛不衰,并且受到大多数国人喜爱的历史题材电视剧进行分析。 在研究过程中,笔者一方面通过关照宏观的时代、文化背景对