论文部分内容阅读
近年来,数据挖掘已经引起了信息产业界的极大关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发展的客观需要。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究,主要包括以下一些内容: 数据挖掘技术的分析与研究。对数据挖掘技术的产生进行了简要的回顾,在提出数据挖掘基本概念的基础上,对数据挖掘的对象、可发现的模式和常使用的技术进行了详细地分类、归纳和总结。对数据挖掘技术的国内外研究现状进行了广泛而全面地归纳、分析和研究,对数据挖掘技术的未来发展趋势和热点研究领域进行了总结和探讨,为本文的全面展开奠定了基础。 关联规则数据挖掘技术的分析与研究。在提出关联规则基本概念的基础上,对关联规则的种类进行了全面地分类、归纳和总结,对关联规则的典型挖掘算法及其基本思想进行了详细地归纳、分析和研究,对各算法之间的差别进行了客观地比较,并通过实例说明了比较的结果。针对提高算法效率的各种优化技术也在这里被进行了详细地研究和讨论,同时客观地分析了它们的优缺点和利与弊,为HY算法的提出和构造建立了理论上的必要性前提。 HY算法的设计、分析与研究。针对经典频繁项集挖掘算法的不足,提出了进行关联规则数据挖掘的基于散列技术和优化的事务压缩技术的HY算法。散列技术部分针对关联规则数据挖掘的特点构造了一个有效的散列函数,在对它的构造原理、实现方法和效率等进行详细地分析、研究和论证的同时,还提出了“基规模度”、“组合存在度”、“组合稠密度”等几个新的概念。事务压缩技术部分在集合传统压缩方法优点的基础上,针对DHP算法中事务压缩技术的不足,提出了更优的事务压缩方法,并对该方法的操作原理和实现步骤进行了详细地分析和研究。通过一个实例给出了由HY算法进行关联规则数据挖掘的过程。最后,给出了新算法详细的算法实现步骤。 HY算法的实验结果。在构造基于泊松分布函数和指数分布函数的合 西南交通大学硕士研究生学位论文 第iii页成数据的基础上,对HY算法的性能及其与Apriori算法和DHP算法的比较进行了实验,这些实验包括针对不同的合成数据和不同的最小支持度,对各算法的执行时间进行比较的实验以及针对合成数据的不同的事务数和不同的项数对各算法的执行时间进行比较的规模实验,并对实验结果进行了分析,反映出HY算法具有良好的性能。 原型系统的实现。采用 VC++.net和 VB.net程序设计语g“,在 MicrosoftWindows 2000 Server、Microsoft SQL Server 2000以及 Microsoft Excel XP系统环境的基础上,构造了一个简单的数据挖掘原型系统,实现了HY算法、MDX查询和数据立方体的OLAP钻取。