论文部分内容阅读
挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好的找到频繁项,但对频繁项频数的估计往往存在较大误差。而我们提出的三个算法:RFreq、SRoEC和SReEC,不仅能够较准确地挖掘出频数较高的数据项,还能够尽可能准确地返回其频数。 相比当前两种最好的经典算法(Freq和SS算法),在同样空间代价情况下,我们的三种算法无论在模拟数据集和真实数据集实验中,都表现出较高的个数准确率、较低的频数偏差率,和较高的频数保有率。尤其是,当数据分布较为平缓时(在模拟实验中体现为标准差增大),我们的三种算法表现出更好的性能。其中,RFreq算法相比其他算法优势明显。 实验中,RFreq、SRoEC和SReEC三种算法的参数设置较为简单。有待后续对这三个算法的参数作进一步优化,以期达到更好的效果。