一种关联规则数据挖掘算法的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:xpzcz1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提高了关联规则数据挖掘的效率,并应用改进算法对税收数据信息库进行了实验性挖掘分析.主要包括:首先,对关联规则数据挖掘算法研究进行了回顾,简要讨论了经典算法及其优化算法的特点,分析了经典算法的不足.第二,设计一种新的频繁项目集生成算法TPPC,对候选项集数据存储结构和候选项集支持度计算方法进行了研究改进.TPPC主要采用了事务数据集、侯选项集的三次剪枝和侯选项集的分区搜索计算技术.K剪枝和K+1剪枝基于以下性质:事务t包含一个K阶频繁项目集I,则I的的所有(k-1)阶子项目集都是K-1阶频繁项目集;事务t包含一个频繁(K+1)项集I的必要条件是I的所有K阶子项集属于L<,k>.在第K轮迭代产生一个剪枝的事务数据库D<,k+1>,使每轮迭代使用的事务数据集能包含事务减少,事务平均长度也不断减小,从而减少事务数据库的扫描开销.TPPC在频繁项目集计数算法上的改进:利用两个一维数组,建立一种可快速搜索定位的数据结构,将侯选项集序列划分为若干连续的分区,形成侯选项集的若干不相交的子集,将搜索和计数限定在相应的区间范围,从而提高频繁项集搜索和计数的效率.通过在多个实验数据集上与Apriori算法的对比测试,其中包括运行时间、最大占用内存情况、事务数据集剪枝情况等,表明频繁项目集生成效率得到大幅提高,TPPC相对Apriori可提高运行速度10倍以上.该文还对TPPC算法的时间复杂性和数据集扫描次数进行了分析.第三,对数据挖掘技术应用于税收决策分析进行了研究.我们对税收基础数据库数据进行了抽取,进行离散化、格式转换等预处理工作,使关系数据库转变为事务数据集,建立了可供关联规则发现的数据挖掘文件,并尝试采用该文提出的算法对纳税资料数据集进行关联规则挖掘实验,结合税收管理实际对实验结果进行了分析.
其他文献
功能相近的基因其表达模式相似,通过发现相似的表达模式可以预测未知基因的功能.数据挖掘中的聚类算法是按照数据的相似性进行划分,实现物以类聚的思想.该文采用聚类技术对基
本论文所研究的课题是国家科技部“十五”科技攻关项目“课件制作与转换工具”项目的一部分。本论文的主要工作为:研究一个能够从Web文档中抽取出信息的算法;分析HTML语言的特
本课题主要研究了小波变换在心电图数据处理中的应用。小波分析是一种优于传统信号分析方法的时频分析方法,由于同时具有时域和频域的良好局部特性及自动调节时频窗的特点,可以
本文首先全面阐述了蓝牙技术的分层协议体系结构,对蓝牙射频、链路控制器和基带、链路管理协议、逻辑链路控制和适配协议、服务发现协议、RFCOMM等协议进行了详细的介绍和分析
该文将基于对SOAP技术进行的深入研究,探讨一种新的、能实现异构组件互操作的解决方案.论文2.1节先从总体上介绍并分析了组件技术及组件互操作机制,阐述了文中异构组件互操作
该文题目为:基于CRM数据挖掘的移动客户细分模型建立与分析.在该文中,作者对CRM以及相关领域进行了比较深入的研究,在阐述CRM及数据挖掘技术基础上,根据移动客户业务需求,设
Internet的开放性和商业化促使越来越多的局域网络加入到Internet中,在网络资源共享带来巨大利益的同时,网络的开放性也带来了系统入侵等安全性问题,因此如何在开放的Interne
论文采用J2EE构架和分布式数据库技术对网上股票模拟交易系统进行了实验和研究.主要结论如下:①采用J2EE技术来架构整个应用系统来满足模拟交易系统的无需太多费用而又需要高