论文部分内容阅读
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求。如何对大数据流进行抽取转化成有用的信息并应用于各行各业,变得越来越重要。传统的批量机器学习技术在大数据分析的应用中存在许多限制。在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具。目前在机器学习领域,已经提出大量的在线学习算法。这些在线学习算法主要包括三方面:1)线性模型在线学习;2)基于核的非线性模型在线学习;3)非传统的在线学习方法。线性模型在线学习和基于核的非线性模型在线学习,是经典的在线学习方法。非传统的在线学习方法则是近几年提出的最新的在线学习方法,这种在线学习算法很有希望更好地解决各种大数据挖掘任务面临的困难与挑战。论文首先介绍大数据分析的动机与背景,概述了在线学习算法的现状及研究的关键问题。随后,本文详细地研究了几种非传统的在线学习方法及其在大数据分析中的应用,主要工作包括:(1)提出一种多任务加速在线学习算法,并应用于大规模协同过滤分解用户与物品矩阵。传统的在线学习是单任务形式的,学习目标是权重向量。并且,在线学习算法收敛率低,一般仅为O(1/√T),T为算法迭代次数。针对这一问题,本文通过对多个任务同时学习的方式,获得比单任务学习更优的性能。算法的加速采用一种改进的微批量技术,收敛率达到O(1/T2)。多任务加速在线学习算法,直接应用于大规模协同过滤分解用户与物品矩阵,实验表明学习性能优良。(2)提出一种组LASSO加速在线学习算法,组LASSO模型常用于生物信息分析等领域。传统的批处理组LASSO算法存在低效率和扩展性差的缺陷。针对这一问题,本文提出一种稀疏组LASSO加速在线学习算法。稀疏组LASSO模型能同时提高分组和单个特征水平上的稀疏性。我们对提出算法的加速收敛性进行了详细的理论分析。同时,对组LASSO权重学习向量wt的迭代闭式解表达式进行了推导,保证了每次迭代的时间复杂度和存储代价均为O(d),d是特征个数。人工和实际数据集上的实验验证了该算法优良的实时性和可扩展性能。(3)提出一种基于非线性组LASSO模型的在线多核学习算法,并对算法的收敛率与错误界进行了分析。动态变化的流数据来源广泛,模型复杂,单个最优核学习方法往往难以满足需求。针对这一问题,本文通过组LASSO与多核学习的一致性得到最优核权重的闭式解,导出多核学习的非线性组LASSO模型。提出的算法中,应用随机梯度下降法求解该模型并采用截取近似技术,以应对核扩展问题和提高收敛速度。同时,本文研究了不平衡的核在线学习问题,该问题广泛存在于监视系统的不正常行为,信用卡交易的欺诈,在线广告/新闻的点击/浏览行为等领域。(4)提出一种基于多样性增量的生物相似性二次判别分析方法,并应用于基因剪切位点在线分析预测算法。传统的批处理模式显然不合适于海量的基因测序大数据分析。同时,生物信息分析为了发现统计学上有意义的结果,往往需要把这些测序得到的短碱基序列与已有的基因组或相近的物种基因组序列进行比对。针对这一问题,本文依据基因剪切信号处的碱基保守性和关联统计特征得到多样性源,并利用多样性增量定量表示生物相似性关系。同时,通过在线学习算法实现基于多个多样性增量的二次剪切位点判别分析法,在基因测序大数据的生物信息分析领域有较好的推广应用价值。