论文部分内容阅读
现实生活中,地球上每个物体都在时刻产生着数据,而传统的以批量数据处理为特点的学习算法已经无法适应以流式数据为特点的大数据场景。若能从这种流式的数据中学到感兴趣的信息,并且在不访问已处理数据的情况下能够保留已学习的信息,那么将会给人类带来巨大的收益。然而,实际生活中的数据类型往往是多种多样的,如数据的维度高、数据量庞大,以及数据的高度复杂性,这都对模型的能力提出了更高的要求。贝叶斯模型具有坚实的统计理论,其非参贝叶斯理论使得模型可根据不同的数据自动的学习其结构。贝叶斯推理能提供待求参数的不确定性,从而有效的缓解过拟合问题,提供鲁棒的参数估计。基于贝叶斯模型的连续学习算法能够持续不断地接受数据,动态实时地更新模型,适合大规模和流式数据的处理,是当前机器学习领域的热点之一。本论文围绕流式数据连续学习这一问题,从贝叶斯模型的设计、参数推理以及针对大数据的处理等方面进行了相关研究。本论文的主要内容概括如下:第一部分,针对流式数据无监督聚类的连续学习问题,提出基于Dirichlet过程混合模型的可记忆变分连续学习算法。在当前任务中,通过birth操作和merge操作,算法可以自动地学习数据集中混合元素的个数。对于当前任务大数据的情况,将该数据集分成B个固定的批量数据,并暂存每个批量数据中属于各个混合元素的充分统计量,每次迭代随机选取其中一个批量数据,更新模型参数,因此本算法可以处理大规模数据集。当下一任务来临时,将学习的模型参数作为先验,与下一任务的数据似然相乘,然后归一化得到下一任务后模型参数的后验分布,因此该算法可以递归地处理流式的数据。实验结果表明,与传统方法相比,该算法能够对每个任务的测试数据预测良好,并对已学习的全部数据集有一个很好的聚类性能。第二部分,针对目标识别中的流式数据,提出基于变分Dropout稀疏化动态可扩展的网络模型。当第一个任务来临时,通过对权值矩阵的每个元素加入促使其稀疏的先验,可以将权值矩阵中的部分权值置为零,获得稀疏的网络结构。当新任务来临时,通过对各任务单独的顶层网络进行变分Dropout稀疏学习,算法先进行选择性的再训练。若训练后,现有网络不能满足新任务的需求,则需要动态地增加一定数量的神经元,以增加网络满足新任务的能力。对于新增的神经元,当其平均的dropout率大于设定阈值时,将会修剪掉该神经元,只留下必要的神经元。当网络对旧任务识别性能下降时,算法会执行网络复制来缓解语义转移的问题,也即灾难性遗忘的问题。通过在多个公开数据集上的实验结果表明,与传统方法相比,该算法不仅能在每个任务上获得相似的识别性能,还可以学到更加稀疏的网络结构。第三部分,为减少参数量,提出基于贝叶斯压缩的动态可扩展网络(BCDEN)的连续学习算法。当第一个任务时,通过对权值矩阵的每行加入促使其稀疏的先验,可以修剪权值矩阵中的某些行,得到压缩的网络。当新任务到来时,通过对各任务单独的顶层网络进行压缩学习,BCDEN先对网络参数进行选择性的再训练。如果训练后,算法对新任务的识别结果不够理想,则说明现有网络已经不能很好解释新任务数据,此时算法会增加一定数量的神经元。通过对新增神经元加入稀疏引导先验,只有必要的神经元会被留下来。当算法对旧任务识别性能下降时,BCDEN会执行网络复制来缓解语义转移的问题。多个公开数据集上的实验结果表明,与传统连续学习算法相比,BCDEN不但能够获得相似、甚至较好的识别性能,还能学到更加紧凑的网络结构,也即更少的网络参数。