基于密度的数据流聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ll730520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和传感器的大规模应用,数据流的产生方式越来越多。数据流的聚类算法研究也越来越引起研究者的关注。数据流具有次序性、实时性、连续性等特点,传统的聚类算法难以对其进行有效聚类。目前,学术界已经对数据流的聚类算法进行了不少研究工作,开发出一些数据流聚类算法。但是由于数据流聚类的复杂性和应用的多样性,现有算法性能仍然有待于进一步提高。已有算法的缺陷主要表现在:聚类结果的精度不够高、多维数据的聚类正确率低、分布式环境下的聚类困难等。本文利用基于密度的聚类技术,研究数据流聚类算法。主要工作如下:1、提出一种基于星型网格的数据流聚类算法:GDH-Stream算法。首先,已有基于密度的数据流聚类算法未考虑数据的空间分布信息,导致聚类结果不够精确。针对这种缺点,本文提出利用数据点空间分布信息的策略,提高了聚类结果的精度。其次,针对网格聚类方法因多维空间的网格数目剧增而造成算法效率过低的问题,本文设计了一种适用于网格的新的星型结构,降低了网格列表中结点的个数,提高了算法的时间性能。再次,论文结合分层聚类方法,改造了微簇特征树的结构,减少算法扫描数据集的遍数,提高了算法的效率。最后,论文分析了所提算法的时空复杂度,并通过一系列的实验验证了所提算法的有效性。2、提出一种基于改进网格密度的分布式数据流聚类算法:DGDH-Stream算法。首先,将分布式环境下数据流聚类分成局部聚类和全局聚类,并提出一种分布式数据流聚类模型,增强了算法的扩展性。其次,设计了一种针对微簇的新的压缩技术,将局部聚类中产生的微簇进行压缩,降低了分布式系统的负荷。最后,论文分析了所提算法的时空复杂度,并通过通过实验对DBDC算法、DGDH-Stream算法的性能和聚类质量进行了比较,结果表明本文所提出的算法优于对比算法。
其他文献
厦门市分公司是A财险总公司直属的38家省级分公司之一,也是厦门财险市场的最大主体,市场份额一直保持在40%以上。近几年,随着市场主体的迅速增加,以费用和价格为主要竞争手段
智能终端设备的快速发展与普及,推动了移动通信技术的发展,也形成了许多具有新型结构的网络。该类网络中链路间歇性连接,消息传输延时较高。同时,传统网络中基于端到端路径的
大规模协同计算平台通过对分布的主机进行统一的管理和调度,使不同主机协作完成复杂计算任务,解决了单一主机的性能不足的问题。基于云计算技术搭建的协同计算平台,借助云计
机会网络是一种在军事、灾难救助及偏远野外地区等领域有着广泛应用的时延和分裂可容忍的无线自组织网络。其网络节点之间不一定存在完整的端到端链路,通过节点移动带来的相
随着网络环境下多传感器系统的广泛应用,量测的不确定性往往不可避免。在不完全量测条件下,利用传统的Kalman滤波器进行融合滤波,往往无法得到可靠的滤波结果,因此研究不完全
随着国家信息化程度的不断提高,网络资源在经济、行政、军事、科研等领域扮演越来越重要的角色,各领域对网络资源的共享和综合利用提出迫切需求。且由于互联网的快速发展和数
随着人们对移动业务需求的快速增长,更高的频谱效率、能量效率、系统容量成为未来第五代移动通信(5G)的追求目标。而大规模多输入多输出(MIMO)系统凭借其超高的复用和分集增
随着移动互联网技术的快速发展,手机早已不是之前那个仅仅用于通话的电子设备,而是演变为人们生活中不可或缺的智能设备。当前的智能手机中根据用户的需求嵌入了越来越多的感
自由空间光通信(Free Space Optical communication,FSO)是一种具有高带宽、大容量、保密性强的新型通信技术,是通信领域重要的研究热点之一。随着一体化栅格信息网的发展建
随着时代发展和科技进步,网络配置管理越发重要,传统的网络管理协议SNMP在网络管理功能、性能以及网络安全性等方面都面临着巨大的挑战。NETCONF协议作为新一代网络协议,采用