数据流中频繁项挖掘算法的研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:lieren001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,流数据在很多领域的广泛应用呈现在我们面前,对流数据的研究也成为目前国际数据库研究领域的一个热点。与传统的静态数据不同,流数据是一个具有时间标记的有序的数据集,其特点是连续的、无限的,通常以很高的速度到来,并且数据分布随着时间而改变。因此传统的对数据进行挖掘的算法已经难以适用到流数据上。许多研究人员对数据流中频繁项挖掘进行了研究,目前,在数据流中挖掘频繁项已经成为数据挖掘研究领域的重要研究方向。
   本文针对流数据特点,研究数据流中对频繁项进行挖掘的高效算法。我们分析了当前国内外在流数据上的频繁项挖掘的各种算法,针对存在的问题,提出了一些更为有效的算法。本论文的主要工作如下:
   ⑴现有的大多数数据流频繁项挖掘算法并没有能强调当前数据的重要性。为此,我们采用衰减系数的方法,给出强调近期数据而弱化“旧”数据重要性的时间衰减模型。我们提出了利用时间衰减模型来检测数据流的ε-近似频繁项挖掘的FE算法。算法的存储空间复杂度为O(ε-1),时间复杂度为O(ε-1),其召回率和精确度远大于同类算法,我们实验证明,该算法比其他类似方法有较高的正确率,较快的处理速度以及较少的内存需求。
   ⑵我们采用衰减系数的方法,另提出了利用哈希表和堆来对数据流中的频繁项进行ε-近似挖掘的FHH算法,该算法利用一个哈希表和一个堆记录流数据中的潜在频繁项。算法的存储空间复杂度为O(ε-1),时间复杂度为O(logε-1),我们的实验证明,该算法具有较高的精度,在时间和空间复杂度方面也优于其它类似的算法。
   ⑶滑动窗口是一种对最近一段时间内的数据进行挖掘的有效技术。因此,我们提出了一种基于滑动窗口的流数据频繁项挖掘的SW算法。算法采用了链表队列策略大大简化了算法,提高了挖掘的效率。对于给定的阈值S、误差ε和窗口长度n,算法可以检测在滑动窗口内频度超过Sn的数据流频繁项,且使误差在εn以内。算法对每个数据项的处理时间为O(ε-1),对一个数据项的查询时间为O(1),对所有数据项的查询时间为O(ε-1),存储空间复杂度为O(ε-1)。通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率。
其他文献
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊
学位