基于Storm的分布式数据流密度聚类算法的研究

来源 :天津师范大学 | 被引量 : 3次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“大数据”时代的到来以及物联网的普及,越来越多的数据由传统的静态数据转变为动态数据流的形式,随之实时数据流的挖掘技术也逐渐成为了该领域的研究热点。由于数据流具有时序性、连续性、动态变化等特点,传统的聚类算法已经无法对其进行有效聚类。此前不少研究学者已经对数据流聚类算法进行了研究工作,提出了一些数据流聚类算法。但是由于数据流聚类的复杂性和应用场景的多样性,现有算法依然具有可改进的空间。已有算法主要存在以下不足:聚类精度不够高、分布式环境下的聚类困难、高维性能较差等。本文利用经典流聚类框架和基于密度的聚类技术,研究数据流聚类算法。主要工作如下:本文基于经典流聚类框架CluStream和密度聚类算法DBSCAN,提出了一种数据流密度聚类算法DBS-Stream。并针对DBS-Stream算法提出了分布式并行化的设计方案,且把它部署在实时流计算平台Storm上进行了实现。在提高精度方面,该算法局部站点沿用CluStream两段式经典框架,其中在线微聚类中局部站点使用DBSCAN代替K-means进行聚类产生局部微簇,解决任意形状聚类问题,并在局部站点快速更新数据,中心站点再次使用DBSCAN算法进行全局聚类,有效提高了聚类的质量与通信代价。在流聚类分布式并行化方面,本文对DBS-Stream算法进行了分布式并行化设计,并将其部署在Storm流式计算平台上,有效体现了流聚类算法的实时聚类效果。本文通过有效性分析、通信代价、线程压力、处理时间等方面设计了对CluStream算法的对比实验,并进行了结果分析。验证表明,该算法在通信代价上占有明显的优势,对噪声点的处理既降低了通信代价,也提高了聚类的质量和效率,而且DBS-Stream算法可以处理任意形状的数据流,在聚类结果的形状上没有偏倚,具有一定的理论价值与实用性。
其他文献
本文在概括国家宏观经济政策与央企投资关系、详细分析央企投资特点的基础上,根据相关特点将央企分为了非垄断性央企和垄断性较强央企。同时还阐述了国家宏观经济政策对不同
针对目前应力吸收层存在的一些不足,提出一种粗粒式应力吸收结构层沥青混合料;并采用CAVF法进行配合比设计,得到同时具备抵抗变形能力和良好变形性能的粗粒式骨架密实结构沥
基于广东江顺大桥钢桥面铺装施工,评价热拌环氧沥青混合料的压实特性及影响因素。采用旋转压实仪(SGC)获取旋转压实曲线,确定热拌环氧沥青混合料压实特征参数,评价压实次数、
明代在湘西地区设置辰州卫、九溪卫、永定卫、镇溪千户所等卫所。湘西卫所的建立有必要原因;卫所设立,维护湘西社会秩序稳定,加强明廷对湘西的治理;将湘西行政管理体制置于全
突如其来的新冠疫情打乱了社会生产正常的节奏,由于疫情导致交通停运、生产滞行,从而引起运输成本增加、库存积压严重、供应链断裂等诸多问题。面对当前严峻的运输环境,生产
我国正处于管理型政府向服务型政府转变之际,政府购买服务政策作为一项服务性政策,在一定程度上为解决社会问题,缓解社会矛盾,提供社会福利找到了新的途径和渠道。本文一方面
基于SE-DEA模型对浙江省18所地方本科院校进行全寿命周期综合效率评价,研究结果表明:浙江省大部分地方本科院校呈现整体有效率、局部低效率状态;非效率地方本科院校物质资源
为全面贯彻党中央、国务院关于深化国有企业改革的决策部署,坚持党的领导,加强党的建设,在推进党的建设和生产经营深度融合实践中,探索形成聚力“点线面”、精耕“责任田”,
导电发热织物是由导电材料制成的柔性织物,并通过通电加热来实现保暖御寒的效果,它可以结合多种传统纺织技术及导电材料获得,在人体防护、保暖服装、医用、智能可穿戴等领域
首例正反向刷单炒信入刑案开启了对淘宝刷单行为进行刑事处罚的先河,产生于大众传媒时代,适应于现实空间的传统刑法是否能够适用于自媒体时代的严重违法行为或者说犯罪行为成为争议的焦点,考虑到淘宝刷单行为在网络市场交易中产生的巨大破坏性,对淘宝刷单行为进行刑法适用具有必要性。但是在司法实践中,正向淘宝刷单行为以非法经营罪定罪,反向淘宝刷单行为以破坏生产经营罪定罪,适用的罪名的口袋化现象明显,在实践和理论中都