基于Hadoop MapReduce的分布式数据流聚类算法研究

来源 :第19届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:pconeone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时的发现任意形状的簇,也不能及时删除数据流中的噪声点.本文提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析以实时的发现数据流中任意形状的簇,定义检测周期和密度阈值函数以及时删除数据流中的噪声点.算法基于网格密度对数据流初始聚类后,随着新的数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,并使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇.实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream.
其他文献
  机动网网络控制训练模拟系统数据存储的设计是系统可靠、高效运行的基础,本文从网控数据组织、设备数据管理、网管数据关联三个方面提出了符合机动网网络控制训练模拟系统
聚羧酸高效减水剂(PCs)是近年来建筑材料化学外加剂领域的研究热点。目前,PCs研究中几个关键问题包括:①含聚氧乙烯(PEO)长链的可聚合大单体的合成及质量控制;②聚合产物的分子量控制与测试表征方法以及减水剂结构与性能之间的关系;③PCs减水作用机理的实验支持和理论模型等。本文围绕上述三个问题开展工作,包括以下三个方面内容:(1)研究了聚乙二醇(PEG)与丙烯酸(AA)酯化反应所得酯化产物(PAE
  因为HTML4没有足够的持久缓存和全双工双向通信,Web表现层呈现大量重复通信和耗时计算响应漫长的问题。这两个问题在云存储Web表现层上尤其突出。通过HTML5的Web Storage
  可靠性一直是数据中心重点研究的问题,云存储技术的发展,为数据中心提高可靠性提供了新的思路。本文提出了一种云存储环境下数据中心的可靠性策略,利用虚拟化技术,采用模块化
一排排高大书架,就像茂盛的森林,美好的书就是林间的硕果,我可以采摘其中最甜蜜的果实,细细品尝……rn从记事起,每隔一段时间,妈妈都会带上我去书店转转.还不认识字的我,最喜
  HLBS(Hadoop Distributed File System Based Log-Structured Block Storage System)是基于日志结构文件系统理念,在Hadoop分布式文件系统框架之上开发的后台存储系统。
会议
  云存储是通过互联网向用户提供存储的一种应用服务。不同的应用有许多不同的访问接口,而在线备份是云存储应用中最成熟的。过去大多数的研究仅仅集中在云存储服务的功能和
会议
  云存储服务作为新型的存储模型为用户带来了极大的便利,但云存储安全问题阻碍了云存储应用的推广,保证云存储数据的完整性成为云存储安全领域亟需解决问题之一。本文对数据
  云存储的构建以提供低成本的存储服务为目的。在云计算系统中,每当用户关闭虚拟机,与之相关的分配资源(如CPU、内存等)均被释放。而在云存储系统中,就算用户长时间不访问的
会议
背景:水稻是世界上最重要的粮食作物之一,也是单子叶植物的模式植物之一。随着水稻测序工作的完成,了解水稻蛋白质的功能将成为生物学研究的重要内容。白叶枯病是水稻生产上