论文部分内容阅读
随着计算机软件硬件的不断升级和WEB技术的迅猛发展,信息技术有了巨大的突破,使得数据收集朝超着全自动化、智能化的方向发展。而各种行业中需要处理的数据量与日俱增,以及数据流的出现,进一步促使数据挖掘技术不断革新,并在诸多领域中得到更广泛的应用。例如,在电信行业、金融股票市场、天气以及环境监测等应用中,海量数据可被抽象为一种新的数据模式即数据流,这给传统的数据挖掘技术带来了机遇及挑战。为提高对流式海量数据的准确、及时的聚类分析,本文提出了N-δ滑动窗口模型,定义了OTCF结构,并在淘汰过程中引入参数t~*,优化了滑动窗口模型下的数据流聚类算法。降低了算法复杂度,提高了内存使用率及对海量流式数据的聚类质量。本文主要做了以下工作:(1)在CluStream算法基础上从三个方面定义了算法结构,即:计算分类,合并及维护OTCF结构,聚类结果三个过程。首先定义了OTCF结构,优化了已有的算法聚类特征结构。通过引入参数t~*,定义了在对多维流数据处理时需要处理过期数据的淘汰机制,通过计算参数t~*对即将到达的数据流进行实时的处理,并对已过期的数据进行淘汰,从而释放内存空间,提高算法的内存使用率及处理效率。(2)在数据流处理过程中定义了一种N-δ窗口模型,滑动窗口处理机制中窗口大小可以随着参数δ的不同而改变。最后,在此基础上改进了基于滑动窗口模型的优化数据流聚类算法,从而高效应用于实时数据流模型中,并广泛地应用于诸领域中。(3)实验数据采用某电信公司的部分数据,使用Java程序设计语言以及SOL Server数据库实现了算法,并分析了算法处理结果。聚类结果表明基于N-δ滑动窗口模型下的优化算法降低了算法复杂度,提高了内存使用率,并获得了比较准确的聚类质量。理论分析及实验表明,滑动窗口模型下的数据流优化聚类算法提高了计算速度,在聚类质量上优于界标模型下的算法。同时,在计算复杂度上优于现有的一些算法。将其应用于数据流诸多领域中,可在很大程度上提高其工作效率。