论文部分内容阅读
数据挖掘(DM, Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。它是一个涉及多学科领域的新兴学科,并随着这些学科的发展而不断发展。关联规则作为数据挖掘的一个重要的研究分支,其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。本文分析了关联规则原理及传统的挖掘算法。借鉴传统的各类挖掘算法,提出了一种基于行程长度编码技术的挖掘算法。并使其应用在关联规则的数据挖掘中。本文通过构建行程长度编码,将访问数据编码成少量的数据,然后直接对存储器中的编码数据进行数据挖掘,使数据挖掘具备了捕捉时态数据内在规律的能力。优点在于数据快速变化时不需要反复读取数据库信息,而且能快速更新数据,从而提高算法的执行速度,提升处理效能。本文研究的算法弥补了传统算法在实时数据处理方面的不足,但它是借助Apriori算法的改进完成的,当支持度很低时,有可能会产生大量的频繁项目集。与理想的算法还有距离,将在以后做进一步深入的探究。