一种基于Hash函数抽样的数据流聚类算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:wu511526198209172515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提出了一种基于Hash函数抽样的数据流聚类算法。算法采用等时间跨度滑动窗口的思想,对每个窗口内的数据首先用Hash函数进行抽样,抽样后的数据先保存在存储池中,然后分析样本数据的变化情况,再利用PAM算法得到最终的聚类结果。从对真实数据集的实验结果上来看,算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream
其他文献
本文运用Miedema理论系统地研究了铝与碱金属Li,Na,K,Rb,Cs组成的二元合金系统的液态混合焓和固态金形成焓,计算得到了结果同已有的实验结果和第一原理方法计算得到的结合符合得比较好,从而说明,Miedema理论
垃圾短信问题越来越严重,为了识别中文垃圾短信,将人工免疫系统的方法引入中文垃圾短信识别领域。针对中文短信息系统本身的一些特点,提出了适应这些特点的人工免疫算法,并在实验中得到验证。实验结果表明,基于人工免疫的中文垃圾短信识别方法具有较低的错误否定率和错误肯定率。
本文用X射线研究了Cu-20Zn-6Al(wt%)合金中贝氏体结构的有序性,并与马氏体结构进行了比较,实验表明,从高温B2母相和低温L21母相生成的贝氏体中(115)和(205)衍射峰或(1210)和(2010)衍射峰是重叠的,对生成的贝氏体进行一段时间的
用涂敷法、自射线照相法研究了Ce在铝硅合金中的分布。结果表明,Ce在初生α-Al和多数初生Si中是贫化的,Ce主要富集于共晶体中,共晶Si中的含Ce量远多于共晶α-Al。
本文研究了Cu-14.7 vol%Fe和Cu-20 vol%Fe原位复合材料的性能和显微结构。经真应变为6.4的形变后,强度分别为860MN/m~2和1090MN/m~2,远远超过混合法则的预测值。随形变量的增加
为了有效提高软件的测试效率,通过对自动化测试技术之间优缺点比较,结合Web的特点和业务流程,提出了一种基于Robot测试框架的关键字驱动技术。在此技术的基础上,设计并实现了
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综
本文通过理论计算证明,压氢还原金属氨配合物M(NH_3)_m~n+的最佳配位数等于其金属离子M~(n+)的氧化数(即m=n),此时还原反应的标准电动势或平衡常数最大。
在多终端的JavaME蓝牙串口通讯中,经常需要访问并控制异地文件目录结构。为了保证在串口连接的条件下能够便捷和实时的获取目录结构信息,准确定位文件,还必须对目录结构动态的进
本文试从气体动力学和超声学角度探讨了超声气雾化快冷制粉技术的原理。