数据流环境下的聚类挖掘研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xyfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘的重要方法之一,聚类是对自然的或抽象的对象自动地进行分组,使其成为由类似对象组成的多个类(簇)的过程。由于其在现实生活中的广泛应用,数据挖掘领域在研究方面已有很大发展。然而,在数据流环境中进行挖掘仍是一项具有挑战性的工作。近年来,随着网络监控、Web应用、传感器网络、金融分析等信息处理应用领域的发展,数据流环境下的数据挖掘研究受到越来越多的重视。这些应用中产生的数据源源不断地到来,因此只能按顺序进行处理,而且数据量是无穷的。传统的数据挖掘算法只能处理静态数据库,对这种大量的,无穷无尽的数据流是无能为力的。针对现有算法的不足,提出了一种基于加权网格的动态边缘聚类挖掘算法:GBCLUS。该算法通过对加权网格信息的统计分析,合理地考虑了数据对象的非空间属性。对数据空间提出了一种新的划分方法:将数据空间划分为非稠密非边缘区域、稠密区域及临界边缘区域三个部分;并利用边缘区域的特性,高效地对聚类结果进行调整和维护,减少了增量更新聚类结果的时间代价;对各区域以不同的空间粒度输出,显著地提高了聚类精度。最后实现了该算法,并使用多个数据源对算法性能做了测试。实验结果证明,该算法对数据流环境下的挖掘取得了很好的效果,能够使用有限的临时空间对数据流进行快速处理,识别出变化的聚类信息。
其他文献
变形,顾名思义就是采用某种方法使一个物体(源)在视觉上连续变化到另一个物体(目标),又称为形状融合、形状插值或形状平均。平面图形变形技术一直是计算机图形学中的重要研究课
时间是客观世界普遍存在的一种元素,它无处不在,渗透在现代生活的各个领域,所有的信息都无可避免地具有相应的时态属性。比如在工资管理系统中存在各种的工资政策,而这些政策与人
用户应用程序中的并发性正在逐渐增长,现代计算机包含了单核多线程和单芯片多核的功能。如何有效地在多核处理器体系结构下开发出高性能、可移植的并行程序,降低并行程序的开
非真实感绘制(Non-Photorealistic Rendering)是目前计算机图形学的新兴领域和研究重点。草图理解(Sketch Understanding)是人工智能的一个重要分支,也是目前人机交互技术,尤其
随着多媒体技术、数字电视和网络技术的发展,用户对视频获取的渠道越来越多,现有的基于文本的管理方法已经不能满足用户需求。为了对海量视频数据实现有效的组织管理和快速浏览
数字实景游戏是最近提出的一类实景游戏。传统的实景游戏一般采用彩蛋作为道具,以彩蛋在玩家身上留下的痕迹作为评判的依据,这大大降低了游戏的价值。数字实景游戏通过整合通
随着计算机技术和仿真技术的发展,建立虚拟实验室以取代传统的物理实物实验室已经成为可能。相比较而言,虚拟实验室在成本控制、易用性、可维护性等方面都有着无可比拟的优势
近年来,随着移动通信技术的迅速发展,整个移动互联网行业呈现蓬勃的发展态势。移动客户端作为接入移动互联网的最方便的方式,与PC客户端和TV应用进行聚合,以虚拟化为基础,将传统的
近年来,足球视频处理与检索技术发展越来越迅速,已经成为一个研究热点。   虽然足球视频持续时间长,包含的镜头很多,但是观众关注的只是一些比较精彩的比赛镜头。如何从足球视
网格计算是近些年来国际上兴起的一项重要技术,目标是要实现网络虚拟环境下高性能的资源共享与协同工作。任务调度是网格计算中的一项关键技术,目标是要在满足一定的性能指标