论文部分内容阅读
随着数据存储技术的快速发展,从大量数据中发现潜在的、有用的信息成为巨大的挑战。特别是随着数据流广泛呈现在各个应用领域,对数据流的挖掘成为了目前数据挖掘研究领域的一个新的方向,与传统的静态数据库不同,数据流是连续的、无限的、高速的。数据流挖掘中一个重要的研究方法是频繁项集挖掘,但传统的频繁项集挖掘以项集的支持度来衡量其重要性,挖掘过程中会丢失一些非频繁但效用高、用户更加感兴趣的项集,因此在数据流中挖掘高效用项集成为一个新的研究课题。同时,已存在的高效用项集挖掘算法在挖掘过程中产生大量的候选项集,使用户很难从大量模式中筛选出有用的信息。针对这种情况,本文对数据流中高效用项集挖掘问题进行分析研究。首先对数据流挖掘技术及高效用项集挖掘问题给以描述,对目前存在的高效用项集挖掘算法从数据结构和处理方法方面进行总结和阐述,指出当前数据流高效用项集挖掘算法所存在的问题,从而提出本论文的研究点。本文提出一种数据流高效用项集挖掘算法HUIDE,弥补了传统高效用项集挖掘算法的不足,能更好的满足用户实际应用的决策需求。该算法基于已存在的高效用项集挖掘算法,综合考虑数据流数据信息特征和用户对项集效用(利润)的要求,首先定义一种有效的效用度量方法,该方法设定项集的效用不仅考虑项集的支持度,更注重项集的实际效用。然后在数据流中采用基于时间的滑动窗口技术更加准确的描述数据分布,窗口滑动过程中为数据信息构建一种树结构HUI-tree,树中各节点采用项目加权效用的降序保存数据信息,使得构建的树结构更加的紧凑,有效的减少候选项集的产生。最后采用自底向上策略遍历整个树结构挖掘高效用项集。该算法通过扫描一次数据库获取挖掘结果,为挖掘过程减少了时间和空间的消耗。在人工和真实数据流上的实验结果表明该算法能够有效地挖掘高效用项集。