N-δ滑动窗口模型下的优化数据流聚类算法

被引量 : 1次 | 上传用户:bodden
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软件硬件的不断升级和WEB技术的迅猛发展,信息技术有了巨大的突破,使得数据收集朝超着全自动化、智能化的方向发展。而各种行业中需要处理的数据量与日俱增,以及数据流的出现,进一步促使数据挖掘技术不断革新,并在诸多领域中得到更广泛的应用。例如,在电信行业、金融股票市场、天气以及环境监测等应用中,海量数据可被抽象为一种新的数据模式即数据流,这给传统的数据挖掘技术带来了机遇及挑战。为提高对流式海量数据的准确、及时的聚类分析,本文提出了N-δ滑动窗口模型,定义了OTCF结构,并在淘汰过程中引入参数t~*,优化了滑动窗口模型下的数据流聚类算法。降低了算法复杂度,提高了内存使用率及对海量流式数据的聚类质量。本文主要做了以下工作:(1)在CluStream算法基础上从三个方面定义了算法结构,即:计算分类,合并及维护OTCF结构,聚类结果三个过程。首先定义了OTCF结构,优化了已有的算法聚类特征结构。通过引入参数t~*,定义了在对多维流数据处理时需要处理过期数据的淘汰机制,通过计算参数t~*对即将到达的数据流进行实时的处理,并对已过期的数据进行淘汰,从而释放内存空间,提高算法的内存使用率及处理效率。(2)在数据流处理过程中定义了一种N-δ窗口模型,滑动窗口处理机制中窗口大小可以随着参数δ的不同而改变。最后,在此基础上改进了基于滑动窗口模型的优化数据流聚类算法,从而高效应用于实时数据流模型中,并广泛地应用于诸领域中。(3)实验数据采用某电信公司的部分数据,使用Java程序设计语言以及SOL Server数据库实现了算法,并分析了算法处理结果。聚类结果表明基于N-δ滑动窗口模型下的优化算法降低了算法复杂度,提高了内存使用率,并获得了比较准确的聚类质量。理论分析及实验表明,滑动窗口模型下的数据流优化聚类算法提高了计算速度,在聚类质量上优于界标模型下的算法。同时,在计算复杂度上优于现有的一些算法。将其应用于数据流诸多领域中,可在很大程度上提高其工作效率。
其他文献
儒家思想在其产生以来的两千多年中,不仅成为中国传统文化的主流和核心,而且在很大程度上塑造了中华民族的民族性格和民族心理。它已经作为一种客观的伦理要素渗透在中国人的
财务管理是现代企业管理的核心内容之一,作为中央企业的重要组成部分,军工科研事业单位在探索自身发展过程中进行了一系列改革,引入了事业部管理模式。本文在介绍军工科研事
登记吨位,是船内容积的度量,因此,它与排水量“吨”或载重量“吨”是截然不同的概念。按摩逊法丈量的船舶吨位有两种:一种是量计除“免除处所”以外的全船所有“围蔽处所”所得的
公司治理机制是解决现代企业由于控制权与所有权分离所导致的委托代理问题的各种机制的总称,通常将其分为内部治理机制和外部治理机制。对于外部治理机制,包括公司治理的法律
目的:探讨使用卵巢功能去势联合芳香化酶抑制剂来曲唑对绝经前转移性乳腺癌的临床治疗效果及安全性,以提高绝经前转移性乳腺癌的治疗效果。方法:将2010年9月~2012年5月我院收
<正>一、规范纳税遵从的三大障碍就我国目前的征管现状来看,主要存在以下三个方面的问题:第一,由于税收政策变化过快,基层税务部门处于征税前线,工作压力过大。由于政策调整,
2012年修改后的新《刑事诉讼法》对证人出庭作证问题作了明确规定,然而新法实施以来,证人不出庭作证的惯例依然没有改变。从司法实践的角度出发,对证人出庭作证制度进行分析,
近年来,随着我国经济的增长,各地城市化进程的步伐不断加快,城市开放空间也不断涌现。城市开放空间被誉为城市的“起居室”和“橱窗”,为城市带来了活力与色彩,使城市生活更
本文对内蒙古乳品加工企业奶业产品市场运作现状分析的基础上,探讨了奶业产品市场运作快速发展的主要原因,明确了其存在的主要问题,如奶产品的销售市场结构失调问题;及随着原
随着2012年我国新修订的《刑事诉讼法》的颁布,国家对诉讼程序的关注已日渐全面深入,刑事诉讼程序也日臻完善。但我们在侦查讯问监督上仍然缺乏比较有效的方法,司法实践中对