基于数据流的聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:wjz5201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的发展和广泛应用,在很多新兴的研究领域中产生了一种新的研究对象,这种具有与传统数据不同特性的数据,它们具有海量性、时序性,同时是快速变化的和潜在无限的,我们把这种数据称为数据流。因而,针对数据流的聚类算法研究是非常火热的。在现实环境中,因为机器精度误差,人为因素造成的数据对最终的结果会产生一定的影响,形成不确定数据,但是现有数据流聚类算法多数面向的是确定性数据,因而怎样有效地处理不确定数据成了一个研究热点。另外,由于数据流具有实时到达的特点,人们更加关注那些最近一段时间内到达的数据,如何将数据流从开始至今的所有数据区别开,实现数据流更好的聚类效果。针对上述问题,本文的主要工作如下:1.首先介绍了数据流的产生,对传统数据挖掘带来的挑战,之后介绍了进行数据流挖掘的研究背景和意义、国内外研究现状,并概括了数据流挖掘的发展前景与应用;并重点介绍了数据流挖掘的研究方向,以及数据流相似性度量方法。2.现有数据流聚类算法多数面向的是确定性数据,对不确定数据流聚类的处理,效果不是很好。因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点。本文提出一种基于区间数的不确定数据流聚类算法UIDStream,算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,提出基于区间数的2k-近邻微簇和最优2k-近邻微簇的概念,通过最优2k-近邻微簇的融合,实现不确定数据流的聚类。实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率。3.由于数据流具有实时到达的特点,传统聚类算法并没有考虑时间的权重,而在许多现实应用领域中人们更加关注那些最近一段时间内到达的数据。本文提出一种基于时间衰减的数据流聚类算法TF-Strea m,考虑到随时间的流逝较早到达的数据对数据流聚类的影响程度呈现衰减趋势,引入了时间衰减函数。离线聚类阶段,在DBSCAN算法的基础上给出了k近邻密度和相对密度等概念,对数据流进行聚类。实验结果表明,TF-St ream算法有效且具有良好的聚类效果。
其他文献
移动互联网的高速发展助力移动云计算产业不断成熟。各大互联网应用服务提供商(ASP/Application Service Provider)均在依托云计算技术开发OTT(Over The Top)业务。随着OTT业
随着WDM-PON和OFDM-PON的快速发展,用户在享受其带来的优势的同时,对于业务的服务质量要求也越来越高。对于某些应用场景,特别是考虑存在用户地理位置分布不均匀的现象,目前
近年来,随着通信技术的快速发展,社会信息化程度越来越高。在各类通信服务层出不穷的今天,有限的频谱资源已经难以满足需求。认知无线电技术作为下一代通信技术的主要候选技
随着经济全球化以及信息技术的不断发展,微众银行、浙江网商银行等颠覆传统银行经营模式新兴银行的成立,意味着银行红海竞争时代的到来,无论银行是否愿意,买方市场的格局将注
本文针对当前某电信公司的业务需要,设计了客户关系管理系统。通过本系统,可对客户关系进行细分,从而制定更行之有效的营销策略,实现精准化营销目标。论文主要完成工作如下:1
目的:我国目前现行的幼儿膳食碘推荐摄入量(recommended nutrient intake,RNI)的参考标准是基于70年代国外幼儿碘平衡试验的研究结果制定的。经分析当时的国外研究存在一些问题,我国现在使用的幼儿碘的需要量标准存在被错估的可能。基于此,本研究立足于我国幼儿人群碘代谢基础上,通过幼儿碘代谢平衡实验,探究我国幼儿的碘EAR水平的膳食碘摄入量参考值,并推导RNI水平的膳食碘摄入量参
背景和目的:脑出血(intracerebral hemorrhage,ICH)是一种威胁人类生命安全的灾难性疾病,且目前仍缺乏有效的针对性治疗措施。脑实质血管破裂后血液成分进入脑组织,形成血肿并对周围组织造成压迫和机械性损伤。血液成分及受损的脑细胞触发脑内固有免疫或适应性免疫应答,血肿周围的小胶质细胞首先被激活,释放多种促炎因子(IL-1β,IL-6,TNF-α)、趋化因子及活性氧等,随后外周白细
近年来,硅材料因其高达4200 m Ah g-1的理论比容量有望作为下一代负极材料应用于锂离子电池中而得到了广泛的关注。然而,硅在充放电过程中巨大的体积变化和较低的本征电导率限制了其大规模工业化应用。针对上述问题,本文从粘结剂和硅碳复合材料两方面进行研究,制备了以环化聚丙烯腈为导电剂,聚酰亚胺为粘结剂的复合负极。通过溶液缩聚的方法制备了三种不同结构的聚酰胺酸(PAm A),将其用作硅负极粘结剂并与
信息技术的发展带来容量的激增,波分复用系统信道间隔越来越小,超级信道系统成为研究热点。未来通信发展趋势是超高速率超大容量超长距离,这对传输网的性能提出新的要求。光
在电力系统的运行管理工作中,电表数据抄收业务是电力系统中的重要基础业务,同时也是是电力生产计划、电能输配送与后期营销决策活动的重要数据支撑。随着信息化的背景下,使