论文部分内容阅读
该文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提高了关联规则数据挖掘的效率,并应用改进算法对税收数据信息库进行了实验性挖掘分析.主要包括:首先,对关联规则数据挖掘算法研究进行了回顾,简要讨论了经典算法及其优化算法的特点,分析了经典算法的不足.第二,设计一种新的频繁项目集生成算法TPPC,对候选项集数据存储结构和候选项集支持度计算方法进行了研究改进.TPPC主要采用了事务数据集、侯选项集的三次剪枝和侯选项集的分区搜索计算技术.K剪枝和K+1剪枝基于以下性质:事务t包含一个K阶频繁项目集I,则I的的所有(k-1)阶子项目集都是K-1阶频繁项目集;事务t包含一个频繁(K+1)项集I的必要条件是I的所有K阶子项集属于L<,k>.在第K轮迭代产生一个剪枝的事务数据库D<,k+1>,使每轮迭代使用的事务数据集能包含事务减少,事务平均长度也不断减小,从而减少事务数据库的扫描开销.TPPC在频繁项目集计数算法上的改进:利用两个一维数组,建立一种可快速搜索定位的数据结构,将侯选项集序列划分为若干连续的分区,形成侯选项集的若干不相交的子集,将搜索和计数限定在相应的区间范围,从而提高频繁项集搜索和计数的效率.通过在多个实验数据集上与Apriori算法的对比测试,其中包括运行时间、最大占用内存情况、事务数据集剪枝情况等,表明频繁项目集生成效率得到大幅提高,TPPC相对Apriori可提高运行速度10倍以上.该文还对TPPC算法的时间复杂性和数据集扫描次数进行了分析.第三,对数据挖掘技术应用于税收决策分析进行了研究.我们对税收基础数据库数据进行了抽取,进行离散化、格式转换等预处理工作,使关系数据库转变为事务数据集,建立了可供关联规则发现的数据挖掘文件,并尝试采用该文提出的算法对纳税资料数据集进行关联规则挖掘实验,结合税收管理实际对实验结果进行了分析.