论文部分内容阅读
现实世界因计算机广泛应用而不断产生的数据给在线数据处理和知识获取带来了新的挑战。诸多应用包括国家安全、普适计算、工业质量监测系统、通信和计算机网络等都需要在线监测和分析。而在这些应用中,由单个或多个数据源并且以空前的速度产生的大量的数据即为数据流。由于数据流本身的特点,如不间断性、数据分布的动态性和数据到达速率的波动性等,数据的大小可能趋于无穷而且数据也是不断变化的,因此如何及时地从新到达的数据中检测出有用的模式对实时决策分析和异常预警至关重要。本文首先综述了数据流领域的最新进展,分析得知在该领域研究的问题往往与分类相关。决策树算法是最先被运用到数据流中的分类算法之一。最早的数据流决策树学习方法是以Hoeffding边界作为节点的划分准则。Hoeffding边界由于其概率分布的独立性而得到广泛关注,在其分母(当前观察的样本数量)较大时结果可收敛。事实上也有相对于Hoeffding不等式来说更加严格的集中不等式。Bernstein和Benett不等式是非独立分布的,因为他们包含变化项。本文使用了Bernstein边界代替Hoeffding边界来进行决策树学习EBT,结果表明其准确度更高,计算耗费更低,而且鲁棒性更强。多数现有的分类技术都假设用于训练分类器的已标记数据足够大,然而这一假设不一定总是成立,原因是新型的科学与工程应用总是以惊人的速度产生着不断变化的数据。由于数据流固有的特性,新的概念将不断产生。因此,分类器的训练通常是缺乏足够多的已标记样本。另一方面,对领域专家来说,人工标记所有的数据也是不现实的。本文提出了一种基于网格聚类的封装器方法,用于标记新出现的训练数据。并在此基础上提出了一种基于有限标记数据的数据流分类算法LLSC。通过实验表明,在只有50%正确标记的训练集情况下,该算法也能达到和快速决策树算法VFDT同样的分类精度。由于LLSC算法需要利用单维网格的交集去确定一个特殊的网格,而该步骤的计算成本较大,从而导致LLSC存在训练时间较长的问题。为了进一步提高算法的分类效率,本文提出了一种改进的LLSC算法LLSC+1。该算法是一个基于哈希表的网格识别方法,并将半监督聚类技术引入到数据流分类中。相对于LLSC算法,改进的LLSC+1算法在保持较高的分类精度基础上,有效地提高了算法的分类效率,特别是在较高维的数据上,它可以减少一半多的计算开销。最后,本文进一步修改了LLSC+1中的基于网格的聚类策略,提出了一种以超椭球聚类形状表示类集的聚类算法。因为现有多数聚类算法都使用欧氏距离矩阵,这常常导致得到球状类集,而椭球相对于球来说更加的灵活。基于新近提出的HyCARCE算法,本文设计了一种新颖的超椭球动态数据流聚类算法HECES,其包含两个阶段:在线和离线阶段。在线阶段,算法是读取多维数据流进来,并且将其放入离散密度网格空间。用户定义时间窗后,椭球对各网格进行逼近,并将初始的椭球融合在一起形成最终的聚类集。这些椭球的融合是由马氏距离度量所决定。最后,具有较小基数的椭球将被删掉。相比于DenStream和CluStream来说,HECES的结果更好。此外,HECES的时间复杂度是D(N),使其更易于应用到数据流上。