基于可拓关联函数的数据流聚类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:qianxiaoping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传感器技术的日益普及和信息社会的快速发展,许多新兴应用领域中出现了实时连续、海量无限和快速变化的数据,这些数据以不同的更新速率连续地流进和流出计算机系统,学术界将它们定义为数据流。面对这种新型的数据形式,仍然运用传统的数据挖掘方法对其进行分析和研究显然是不恰当的。因此,迫切需要开发出新的技术和新的方法以解决目前的窘境。聚类是数据挖掘领域中一项非常重要的技术,对数据流进行聚类分析有相当大的现实意义。迄今为止,已有许多优秀的数据流聚类算法被相继提出,它们在一定程度上解决了数据流聚类分析的难题。本文的研究内容集中于如何设计出一种高效率、高质量的数据流聚类算法。文章总结了相关的聚类理论和技术并且对现有的数据流聚类算法进行了分析和比较,在此基础上,针对数据流本身所具有的特点提出了一种高效、准确的数据流聚类算法EXCluStream。该算法借鉴了CluStream算法经典的在线—离线两阶段框架,并且根据可拓学的物元和经典域概念修改了微簇聚类特征结构。EXCluStream算法的聚类过程是:在线阶段使用本文所提出的基于可拓关联函数的聚类算法CABDF进行微簇的初始化,然后,当新数据点到来时,根据其关联度取值的情况将该数据点划分至关联度最大的簇中,以上过程进行的同时需要计算机每隔一段固定的时间就将微簇聚类特征以快照的形式存储于金字塔结构中以便于后续的分析。离线阶段将从硬盘中取出用户指定时间范围内的所有微簇,选取含有一定数目的微簇作为虚拟点,再次调用CABDF算法进行聚类。倘若用户需要对数据流的演变进行分析和比较,那么通过在线阶段存储下来的快照就可以做到。通过实验表明,本文所设计出的CABDF算法具有聚类质量高、可扩展性好的特点,除此之外,数据流聚类算法EXCluStream也达到了聚类纯度高、单遍扫描、实时返回结果的要求,该算法适用于大规模的动态数据集聚类的分析和研究。
其他文献
遥感具有快速获取全球以及大区域空间信息的独特优势,而且空间信息资源的掌控权是国家综合国力和核心竞争力的重要标志,发展遥感对地观测系统与占领未来战略性新兴产业制高点
在自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素的处理。目前已有许多处理不确定性的数学工具,如粗糙集、模糊集和概率论。其中,Pawlak粗糙集作为
随着科技的发展,数字内容在许多领域都得到了广泛应用,比如教育、医学以及娱乐等,这就不得不涉及到数据内容版权管理的问题。在基于内容的数字版权检索系统中,由于数字多媒体
关键词查询的理论和技术在信息检索和Web搜索引擎中得到了广泛深入的研究和应用。传统数据库管理系统仅支持模式匹配,不支持自由形态的关键词查询。鉴于此,近年来关系数据库上
在国家的现代化建设中,桥梁建设是必不可少的。由于桥梁投资巨大、使用期漫长,因此其使用的安全性极为重要。为了实时了解桥梁结构在各阶段的运行状态,许多桥梁在建设时就安装了
电能作为当今社会最重要、最方便的能源,它支撑着整个国民经济体系和社会发展。如今,电力部门将提供良好的电能质量作为电力系统正常运行的重要任务,其中对谐波的管理、检测和治
随着现代计算机和网络技术的发展,物联网已经离人们的生活越来越近。虽然物联网可以给人们的生活和工作带来很多便利,但是随着之而来的安全和隐私问题也越来越严重,人们对于
随着IT技术的不断发展,人们对于宽带网络连接的需求也在不断增加,相比于传统的有线接入网络而言,无线P2P网络由于潜在的广泛应用能力在日常生活中扮演着越来越重要的角色。目前
脱机手写汉字有书写不清楚和不规范等特点,这给脱机手写汉字识别带来一定的困难。本文设计了一种基于组合特征和隐马尔科夫模型(HiddenMarkovmodels,HMM)分类器的脱机手写汉字
随着智能手机的不断发展,普通的消费者能够通过手机享受到更便捷的网络服务,而移动搜索也成为人们获取信息资源的主流方式之一。移动搜索本身有其自身的特点,由于智能手机在屏幕