在线学习算法研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dahar005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和互联网应用的日益普及,数据产生的速度越来越快。传统的以批量数据处理为特点的离线学习算法无法适应大数据场景下流式数据的特点。在线学习算法能够持续不断地接受数据,动态实时地更新模型,适合大规模和流式数据的处理受到了研究者的高度重视,是当前机器学习领域的热点问题之一。在线学习算法的研究主要包括三个方面:(1)在线学习算法的理论分析;(2)在线学习算法应用在不同的机器学习任务中;(3)在线学习算法的收敛速率。本文围绕上述问题,从理论分析到具体应用对在线学习算法进行了比较系统的研究,一方面对已有算法的不足进行改进,一方面对若干未解问题提出新的解决方案。具体而言,本文的创新点如下:1.ADMM(Alternating Direction Method of Multipliers)是一个通用的优化框架,广泛应用于分布式机器学习的各种任务中。为了加速在线ADMM算法,将传统的在线ADMM算法的遗憾度理论分析从基于轮次的分析拓展到基于梯度变化的分析。论文针对两种类型的在线ADMM学习算法(FTRL-ADMM和PGD-ADMM),分别提出了改进的在线ADMM算法,并给出基于梯度变化的遗憾度分析,证明了提出的算法比已有的算法具有更紧凑的遗憾度上界。2.ARIMA 模型(Autoregressive integrated moving average)是时间序列预测中广泛使用的线性模型。然而,现有的关于ARIMA模型的学习算法都是离线学习算法且噪音项必须满足严格的假设条件,这严重阻碍了 ARIMA模型的通用性以及解决海量时间序列预测问题。因此,本文松弛了关于ARIMA模型噪音项的假设并提出了 ARIMA模型的在线学习算法。通过理论分析证明了提出的ARIMA模型在线学习算法能够趋近于最优的ARIMA模型离线学习算法。在人工数据集和真实数据集上进行一系列的验证,实验结果证明了所提出的算法的效率和有效性。3.近年来,通过在线学习求解非负矩阵分解任务的NN-PA算法在推荐系统的应用上取得了巨大的成功。为了加速NN-PA算法的收敛速度,论文提出了 NN-APA算法,利用二阶的梯度信息进行每轮更新,利用“专家学习”技术实现在线学习任务的参数自动调整。本文给出了新算法的理论分析,并证明了它比NN-PA算法收敛更快。在一系列关于推荐系统的数据集上进行了深度地实验分析,进一步验证了新算法的效率和效力。4.协同主题回归(Collaborative Topic Regression,简称CTR)模型结合了概率矩阵分解(probabilistic matrix factorization 简称 PMF)模型以及主题模型(topic modeling,例如LDA),利用文本信息提升推荐的准确率。尽管该模型在推荐领域取得了巨大的成功,然而现有的CTR模型推导算法bdi-CTR存在严重的缺陷。首先,bdi-CTR算法是离线算法,无法适应流式的数据或者现实中的大数据场景;其次,bdi-CTR算法首先用LDA计算产品相关的主题表达,然后把该结果推送到PMF求解过程中,它忽略了 PMF对LDA的作用,也就是说,该算法并没有考虑推荐预测信息对LDA推导主题模型的作用。因此本文提出了一个在线联合推导算法obi-CTR。提出的算法不但可以处理流式数据,还能利用PMF模型的结果来强化LDA模型的推导,两个模型互相曾增强从而达到联合优化的目的。实验结果显示,obi-CTR算法不但能高效地处理流式数据以及海量数据,还能同时增强主题模型的主题表达以及推荐系统的预测性能。
其他文献
建立数学模型计算了复合绝缘子的沿面电场分布,利用有限元法计算了220kV线路复合绝缘子不安装均压环及安装不同形状尺寸均压环时沿面场强分布和电位分布。分析了均压环各因素
自动测试系统 (ATE)能够在最少依赖操作人员干预的情况下 ,自动完成对被测电子系统、电路板 /模块的功能行为或特征参数的分析、性能状态评估以及元器件参数的调整 ,并实现故
沟通管理是项目管理中"九大管理"的重要工作之一。大科学工程项目在实施管理中,有效的沟通管理是其项目管理的一个重要组成部分。对大科学工程项目沟通管理进行了研究,并就"5
目的:研究促性腺激素释放激素(GnRH)类似物曲普瑞林(triptorelin)联合顺铂(c DDP)对卵巢癌顺铂耐药细胞血管生成的抑制效果,并探讨其作用机制。方法:体外筛建卵巢癌OVCAR-3细
激光武器是一种技术渐趋成熟的新概念武器,在防空、反导和反卫星作战中将发挥重要作用。系统介绍了美国机载激光武器的发展概况、组成与作战原理,分析了机载激光武器存在的主
在工程实践中,暂估价专业工程的随意设置使工程总造价超支的现象时有发生。为了解决这一问题,应当明确暂估价专业工程的范围。金额范围与专业工程范围是决定暂估价专业工程范
雷电灾害是全球最严重的十种自然灾害之一。四川省是雷电灾害多发区,雷电活动十分频繁,雷电灾害所带来的损失也越来越大。针对日益迫切的社会需求,四川省防雷中心等单位开展
分子印迹技术(Molecular Imprinting Technique, MIT)是一种制备对特定分子具有专一识别性能的聚合物(Molecular Imprinting Polymer, MIP)的技术。它是将功能单体在模板分子
本文研究中采用了岩心资料,测井资料和地震资料综合分析的方法,以层序地层学、沉积学、石油地质学等理论为指导,首先对本区10口井的岩心进行观察描述,辅助岩心薄片的观察分析