数据流频繁项挖掘算法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:Cgsking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好的找到频繁项,但对频繁项频数的估计往往存在较大误差。而我们提出的三个算法:RFreq、SRoEC和SReEC,不仅能够较准确地挖掘出频数较高的数据项,还能够尽可能准确地返回其频数。  相比当前两种最好的经典算法(Freq和SS算法),在同样空间代价情况下,我们的三种算法无论在模拟数据集和真实数据集实验中,都表现出较高的个数准确率、较低的频数偏差率,和较高的频数保有率。尤其是,当数据分布较为平缓时(在模拟实验中体现为标准差增大),我们的三种算法表现出更好的性能。其中,RFreq算法相比其他算法优势明显。  实验中,RFreq、SRoEC和SReEC三种算法的参数设置较为简单。有待后续对这三个算法的参数作进一步优化,以期达到更好的效果。
其他文献
本文以基于小波变换的静态图像压缩算法的原理为基础,主要研究了静态图像压缩算法的实现,为其在嵌入式体系结构下的实现奠定基础。   论文研究了小波分析,多分辨率分析,Mallat
随着语义Web的发展,在线的语义数据越来越丰富。面对庞大的由语义对象和它们之间的语义关联构成的数据之网,帮助用户挖掘到数据之网中的语义关联模式进而能够快速有效地构建用
本文主要实现了基于混合预处理方法的嵌入式零树块编码算法,其目的是为了让该算法能够在以后的嵌入式体系结构中更好地应用。   首先,研究了小波变换以及多尺度几何分析方法
在计算机网络化迅猛发展的时代,如何有效、快速地从大量数据中获取人们需要的知识成为许多学者以及研究人员关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出,使得人们
文档协同编辑是计算机支持的协同工作的重要应用之一,主要是为了实现多人异地同步编辑共享文档。随着分布式技术的不断发展,文档协同编辑工作模式产生了组织分工逐渐细化、人们
随着科技的进步,射频识别技术(Radio Frequency Identification,RFID)技术已应用于诸如仓储管理与物流、邮件/快运包裹处理、图书管理、医疗保健等领域。RFID技术与互联网、
作为快速搭建企业级应用管理平台的重要手段,软件复用技术在全球信息化建设进程中扮演越来越重要的角色,是实现软件工业化、规模化、标准化的重要途径。而软件框架又是实现大规
随着计算机和互联网技术的飞速发展,在自然语言处理领域,以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索
近年来,突发事件频繁发生,对人类的生命财产安全造成巨大威胁,严重影响整个社会的稳定和经济的发展。提升应急响应能力、构建高效的应急响应决策支持系统一直是近年来许多政府部
基因芯片的出现给生命科学研究、疾病诊断、新药开发、食品监督等领域带来了革命性的变化,而在一个典型的基因芯片的运作中,会有成千上万的基因表达数据产生,对基因表达数据