论文部分内容阅读
密度估计是统计推断中的经典问题,一组数据背后的概率密度函数反映了其在特征空间上的分布情况,能够为数据驱动的决策过程提供非常重要的信息。在聚类、异常检测以及可视化领域中,密度估计算法有着非常广泛的应用。随着移动互联网、社交媒体等新兴模式的快速发展,流式大数据正普遍成为数据挖掘与分析的对象,其实时性、易失性、突发性、无序性、无限性的特点使得在线密度估计成为了必要。传统的密度估计算法,无论是参数式还是非参数式方法都无法在这样的情形下直接应用。参数式的算法适合进行在线化任务,但是表达能力有限;非参数式算法具有更加广泛的表达能力,但是往往时间和空间复杂度较高,而且需要保存所有历史数据,无法处理大规模的数据流。因此,需要能够把两者的优点结合起来的新方法以达到在线密度估计的需求。本文从自组织增量学习神经网络(SOINN)的增量学习框架出发,通过分析其学习算法,指出其与高斯混合模型之间的密切关系。基于此观察提出了一种对流式大数据进行在线密度估计的增量高斯混合模型LAIM,同现有的在线式和离线式密度估计算法分别进行了对比实验和分析讨论。本文的主要工作有以下三点:1.对密度估计这一问题和常用的算法进行了分类总结,并梳理了参数式方法和非参数式方法各自的优缺点;2.介绍了自组织增量学习神经网络(SOINN),通过对其学习算法的分析指出其本质上是一种高斯混合模型的增量化实现,这使得它能够进行在线密度估计,而且以较低的模型复杂度取得非参数式方法的灵活性;3.为学习局部复杂的密度分布的同时加速算法收敛的速度,在SOINN增量学习的结构上提出了基于局部参数更新策略的在线密度估计算法LAIM(Local Adaptive and Inremental gaussian Mixture),该模型通过将每次迭代的过程限制在一个局部区域,能够增量式地学习数据流中变化的密度分布,同时不破坏先前已经学习到的有效信息。实验表明,无论是在人造数据还是真实数据集上,LAIM都比同类型的在线密度估计算法取得了更好的密度估计结果,在许多情况下能够取得与复杂度更高的批处理算法相当的结果。