基于数据流的挖掘算法研究

被引量 : 0次 | 上传用户:loyal86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软硬件技术的飞速发展,人们在各个领域积累了海量的数据。这些数据是以数据流的形式进行积累的。由于数据流具有连续快速、短暂易逝以及不可预测等特点,因此数据流必须得到实时的处理,并且只能存储历史数据的摘要信息。传统的数据挖掘算法无法直接应用于数据流之上,基于数据流的挖掘算法成为当前的研究热点和难点。本文分析并总结了当前数据流挖掘算法的研究成果,并提出了基于带子窗口的滑动窗口的进化数据流通用处理模型,并在此模型上分别实现了分类算法、频繁模式挖掘算法以及聚类算法。首先,对当前基于数据流的分类算法进行了分析。在结合当前流行的CVFDT算法和集成分类器算法的优点后,设计并实现了一种具有更好适应性的SADT算法。算法分析流入的数据,并自行决定修改还是重建分类器,比较理想地解决了概念漂移的问题。最后,通过实验来验证了SADT算法的适应性。接着,对当前主流的数据流频繁模式挖掘算法进行了总结。针对经典的FP-Stream算法空间效率不高和时间粒度较粗的不足,设计并实现了挖掘并存储闭合频繁模式的算法DSCFPM算法。实验表明,该算法具有非常好的空间效率,具有较好的扩展性。然后,阐述了数据流聚类算法的研究现状。在CluStream算法提出的在线和离线处理模型的基础上进行修改,设计并实现了基于密度单元的DSWStream算法。该算法无需预先确定聚类的个数,可以发掘任意形状的聚类,并对离群点和噪声都有较好的处理能力。最后,通过实验证明DSWStream算法具有更高的聚类质量和效率。总而言之,本文在带子窗口的滑动窗口处理模型上实现了数据流分类、频繁模式挖掘以及聚类的算法。与现有的挖掘算法相比,本文提出的算法综合考虑了存储空间的开销、挖掘处理的速度以及结果的准确性等方面,具有更好的适应性及可扩展性。
其他文献
以许疃煤矿为例,阐述自动化平台的概念、形成与发展和使用IFIX进行煤矿自动化平台系统设计与建设,形成以矿井安全信息中心为核心,将煤流生产、通风、排水和压风等设备的监控
工程监理是对工程建设实施监督控制的专业服务活动,对工程建设的质量和安全起着重要的保证作用。随着工程监理在我国的快速发展,一些大型的工程监理团队向专业化的服务项目发
本文选取了两组具有可比性的案例——第一组:葡萄牙建筑师阿尔瓦罗·西扎((?)lvaro Siza)设计的安东尼奥·卡洛斯·西扎住宅(Casa António Carlos Siza.1976-78)和上海嘉定
改革开放以来,通过实施对外商投资倾斜的税式支出政策,我国外资的流入量已经连续多年居于发展中国家之首,甚至于2003年超过美国,居于世界第一。但引进的外资主要集中在劳动密
生物传感器是以生物学组件(如酶、微生物细胞、DNA等)作为主要功能性元件,识别和感知被测物并按一定规律转换成可识别信号的器件或装置。因其具有体积小、响应快、可实现原位在
随着各国城市的发展,对城市管理的研究日益受到国内外学者的重视。针对我国行政执法领域普遍存在的多头执法、重复执法、执法机构膨胀、执法效率低下和执法扰民等问题,从20世
本文通过土培试验方法研究不同浓度Cd胁迫对桐花树(Aegiceras corniculatum)幼苗的生长、生理特性及土壤酶活性的影响,从可溶性蛋白、可溶性糖、淀粉、脯氨酸、抗氧化酶系统、M
养老问题是长期困扰许多国家的社会难题,也是我国构建和谐社会需要解决的重要现实问题。人口老龄化趋势下,我国基本养老保险制度对财政造成了巨大压力,这要求我们必须尽快健
随着全球经济一体化,金融自由化和金融创新的发展,混业经营已成为世界现代金融业的发展趋向。混业经营在促进金融业发展的同时,也促使各国进行金融监管体制的变革。我国在分
进入二十一世纪,伴随着国际旅游竞争的加剧,旅游目的地国际竞争力理论研究逐渐成为旅游学界研究的焦点。旅游目的地国际竞争力决定因素理论,作为旅游目的地国际竞争力理论体