数据流聚类算法的研究

被引量 : 0次 | 上传用户:lanbour156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据挖掘算法主要是针对于简单的、结构化的数据,这些数据大都是静态的,但是,当前很多大规模数据都是以数据流的形式存在。这样的数据流具有海量的、不间断到达的、快速变化的特点,使得传统的数据挖掘算法无法适用,算法精度难以得到保证,迫切需要一些新的、基于数据流的挖掘算法。同时,在数据挖掘中,聚类又是很重要的一方面算法,在对数据流进行聚类这一问题上,同样具有非常重要的研究价值。本文研究的正是这样一种数据流聚类的算法。很多知名学者对已有的传统聚类方法进行了扩展和改进,提出不同的数据流聚类算法,已经获得了较好的聚类效果。但是,由于参数设置不当或传统算法固有的缺陷,诸多算法仍存在着一些不足之处。针对上述问题,本文在传统聚类算法的基础上,利用网格和密度,对其进行了扩展,使之可应用于数据流聚类问题。该方法结合了基于密度和基于网格两种聚类方法的优势,具有聚类速度较快、精度较高等优点。本文是由D-Stream算法改进得到的,充分发挥其算法优势,并且在其原有算法的基础上,进行了几方面的改进:首先改进了相关参数的设置,使得划分网格疏密程度的参数可以随网格的变化进行动态调整,避免了参数设置需要具有经验知识这一问题。参数设置参考了部分相关文献,借鉴了其思路,并加以修正和优化,使得算法效率得到了保证,同时对于部分复杂的参数设置进行了证明,保证参数的正确性,不会对聚类结果的正确性造成影响。然后,在离线聚类阶段,本文提出了基于并查集和基于广度优先两种算法,在工程实践中具有一定的意义。同时,对原有的D-Stream算法的离线部分也做了一些改进,在聚类阶段也加入了基于并查集和基于广度优先两种算法的相关操作,优化了算法效率。最后,本文使用了KDD99数据集,对本文提出的算法进行了实验验证。首先是对本算法自身进行实验,通过调节实验相关的参数,使算法获得的较好性能;然后通过实验与D-Stream算法和NDD-Stream算法进行了比较,验证了本算法的正确性和高效性。
其他文献
高中数学具有高度的抽象性和复杂性,其解题难度较高,是高中阶段学生学习的难点所在。高中数学题型众多,并且每种类型题都有多种形式,只有掌握了正确的解题思想,才能有效提升
目的探讨糖尿病致脑干梗死的危险因素,并分析糖尿病与脑干梗死的关系。方法回顾性分析脑干梗死患者462例的临床资料,将其分为2组,非糖尿病合并脑干梗死患者为对照组168例,糖
语言不是教会的而是练会的。练习在对外汉语口语教学中起到了非常重要的作用。只有通过练习,学生才能够将在课堂上学到的语言知识转化为言语技能和言语交际技能。近年来练习的
随着网络技术的迅猛发展,人类已经进入信息社会。信息产业的崛起对人类的学习、工作、生活以及思维方式等各方面都产生了根本性的影响,引发了人类社会的巨大变革。在这场变革中
太阳能储量无限、清洁无污染、安全可靠,是未来最理想的能源。聚光光伏发电技术具有较高的转换效率和较大的成本下降空间,成为太阳能应用中的新亮点。聚光器是聚光光伏系统的核
电力工业是我国国民经济发展的基础性支撑产业之一。本论文以内蒙古电力(集团)有限责任公司为例,采用定量的研究方法针对企业内部的组织效率评估以及人力资源需求开展了深入研究
目的:以3D-TOF MRA为金标准,探讨磁敏感加权成像(SWI)在脑梗死患者颅内动脉血栓诊断中的临床应用价值。材料与方法:纳入研究的190例脑梗死患者均行颅脑MR(IT1WI、T2WI、FLAIR、DWI
微创手术具有不开腹、创伤小、痛苦小和恢复快等优点,因此在世界范围内得到了广泛地应用。传统微创手术因其不可避免的缺陷在一定程度上限制了微创手术的应用和发展:手术器械在
运用云计算技术可以使IT系统的信息共享功能扩展到平台和设备的共享,从而降低企业信息化的成本、提升核心竞争力,创造更多的富余价值。桌面云在云计算的背景下应运而生。通过
企业年金计划是企业或者企业和职工共同筹资形成的职工补充养老保险基金,其基本社会经济功能是对抗老龄化危机,确保老年人经济安全。企业年金已经成为当前完善我国养老保险体系