基于密度的双层数据流聚类算法

来源 :河海大学 | 被引量 : 0次 | 上传用户:kllkll123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域一项重要的研究课题。近年来,由于计算机应用技术的高速发展,人们获取数据的能力得到了极大的提高。数据流作为一种重要的数据来源,也得到了人们越来越多的关注,例如电话通信记录、卫星传输数据、网络监控日志、电子商务记录等。这些数据适合用数据流模型进行描述。与传统的静态数据相比,数据流是高速的、连续的、动态的、变化的、无限的,对它们的访问只能是顺序的、一次或有限次的、对它们的存储也只能是动态的、概要的。数据流的这些特性,给数据流的挖掘带来了极大的困难,也给数据流的聚类算法提出了更高的要求。 本文深入研究了数据流的聚类问题,分析了现有的数据流聚类算法。在Clustream算法的基础上提出了基于密度的改进双层数据流聚类算法,该算法由第一层一在线快速计算层和第二层--离线精确计算层组成。在线快速计算层将数据流聚集成微簇后,利用基于密度的评估方法找到微簇中的聚类密集区域,然后应用不完全划分策略输出这些聚类密集区域。这一层主要是对数据流进行快速处理,在最大限度地规约数据的同时保留足够的数据信息,将相对较小的中间结果输出到离线精确计算层,并对中间结果采用基于密度的方法进行评估,使得第二层算法的输入更加有效。离线精确计算层使用N-维球数据结构描述密集区域,利用渐进扩展的方式搜索高密度区域,从而对N-维球集合目标进行基于密度的聚类。离线层面临的数据压力相对较小,可以用复杂的算法深入分析第一层得到的结果,从更高的粒度上得到聚类结果。这个双层数据流聚类算法给用户提供了更大的自由性,在面对变化较快的数据流时,它能在不同的时间范围内给出相应的聚类结果,因此,更加适用于实际应用。 我们利用实际数据集和人造数据集对算法进行了测试。将测试结果做了有关聚类质量、可扩展性和参数敏感性等方面的系列分析,并同其它数据流聚类算法的相关测试数据比较,验证了本算法框架具有强大的优势和广阔的发展前景。
其他文献
本文对基于Windows CE.net的嵌入式数控系统软件设计进行了研究。文章阐述了国内外数控系统的研究状况和发展趋势,介绍了其市场前景。通过与目前流行的基于PC方式的数控系统的
美国社会学家拉斯维尔在总结大众传播媒介在社会中发挥的功能时曾经指出,大众传播媒介具有“传承社会文化性”,也就是说“大众传播媒介可以将知识、价值观和规范一代一代地在社会成员中传递下去。通过这种传承文化的功能使社会在扩展共同经验的基础上更加紧密地凝聚起来,媒介传承文化的功能,
新课改以后,教育改革成为国家深化改革的重头戏.“以人为本、德育为先、全面发展”的素质教育理念得到了极为有效的渗透和推广.小学数学作为义务教育阶段极为重要的教学科目,
期刊
就当前小学语文阅读教学的情况来看,并不乐观,教学过程中有不少的问题存在.其中以学生对于书籍的阅读兴致不高,在阅读过程中缺乏科学有效的阅读方法作为支持以及学生的课外阅
期刊
随着基础教育发展的内涵化,教育检测在教学现状诊断过程中的作用越来越重要.与以往的统考统测不同,该教育检测方向是以学生的发展为指向的,在小学语文阅读教学改革中关注质量
期刊
语文教学中对学生进行鼓励,是一种较为有效的教学策略,尤其是对于低年级小学生来使用,效果会更加令人满意.低年级小学语文课堂上鼓励教学的应用应该整合学习任务,让学生形成
期刊
班主任是班级的教育者和组织者,是培养学生自主学习和自我教育的能力,沟通协调学校、家庭、社会三方面教育的桥梁,在初中学生德育教育中发挥着重要的作用.文章从适应时代发展
教育的本质是“教书育人”,明确地说,则是先教学生成人,而后则学书.此种理念在现当今多元价值观并起而使学生的道德根基造成威胁的时期则更当得到重点的强调,得到在包括小学
期刊
就诊时血压在有些患者常有变异,尤其是在老年人,而血压变异无论是收缩压和/或舒张压变异,均对脑血管有不利危害。然而迄今关于每次就诊时包括收缩压和/或舒张压的血压变异对老年
2018年3月,西藏自治区教育厅先后印发《关于在全区各级各类学校开展教师教学技能大练兵活动的意见》及《关于全区各级各类学校开展教师教学技能大练兵活动的补充通知》.随即,
期刊