面向大数据分析的多任务加速在线学习算法研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:p_pppoe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求。如何对大数据流进行抽取转化成有用的信息并应用于各行各业,变得越来越重要。传统的批量机器学习技术在大数据分析的应用中存在许多限制。在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具。目前在机器学习领域,已经提出大量的在线学习算法。这些在线学习算法主要包括三方面:1)线性模型在线学习;2)基于核的非线性模型在线学习;3)非传统的在线学习方法。线性模型在线学习和基于核的非线性模型在线学习,是经典的在线学习方法。非传统的在线学习方法则是近几年提出的最新的在线学习方法,这种在线学习算法很有希望更好地解决各种大数据挖掘任务面临的困难与挑战。论文首先介绍大数据分析的动机与背景,概述了在线学习算法的现状及研究的关键问题。随后,本文详细地研究了几种非传统的在线学习方法及其在大数据分析中的应用,主要工作包括:(1)提出一种多任务加速在线学习算法,并应用于大规模协同过滤分解用户与物品矩阵。传统的在线学习是单任务形式的,学习目标是权重向量。并且,在线学习算法收敛率低,一般仅为O(1/√T),T为算法迭代次数。针对这一问题,本文通过对多个任务同时学习的方式,获得比单任务学习更优的性能。算法的加速采用一种改进的微批量技术,收敛率达到O(1/T2)。多任务加速在线学习算法,直接应用于大规模协同过滤分解用户与物品矩阵,实验表明学习性能优良。(2)提出一种组LASSO加速在线学习算法,组LASSO模型常用于生物信息分析等领域。传统的批处理组LASSO算法存在低效率和扩展性差的缺陷。针对这一问题,本文提出一种稀疏组LASSO加速在线学习算法。稀疏组LASSO模型能同时提高分组和单个特征水平上的稀疏性。我们对提出算法的加速收敛性进行了详细的理论分析。同时,对组LASSO权重学习向量wt的迭代闭式解表达式进行了推导,保证了每次迭代的时间复杂度和存储代价均为O(d),d是特征个数。人工和实际数据集上的实验验证了该算法优良的实时性和可扩展性能。(3)提出一种基于非线性组LASSO模型的在线多核学习算法,并对算法的收敛率与错误界进行了分析。动态变化的流数据来源广泛,模型复杂,单个最优核学习方法往往难以满足需求。针对这一问题,本文通过组LASSO与多核学习的一致性得到最优核权重的闭式解,导出多核学习的非线性组LASSO模型。提出的算法中,应用随机梯度下降法求解该模型并采用截取近似技术,以应对核扩展问题和提高收敛速度。同时,本文研究了不平衡的核在线学习问题,该问题广泛存在于监视系统的不正常行为,信用卡交易的欺诈,在线广告/新闻的点击/浏览行为等领域。(4)提出一种基于多样性增量的生物相似性二次判别分析方法,并应用于基因剪切位点在线分析预测算法。传统的批处理模式显然不合适于海量的基因测序大数据分析。同时,生物信息分析为了发现统计学上有意义的结果,往往需要把这些测序得到的短碱基序列与已有的基因组或相近的物种基因组序列进行比对。针对这一问题,本文依据基因剪切信号处的碱基保守性和关联统计特征得到多样性源,并利用多样性增量定量表示生物相似性关系。同时,通过在线学习算法实现基于多个多样性增量的二次剪切位点判别分析法,在基因测序大数据的生物信息分析领域有较好的推广应用价值。
其他文献
随着中国经济快速发展,建筑业大型项目越来越多,项目管理难度越来越大。在日益激烈的市场竞争下,项目利润越来越低,要想取得良好的经济效益,对项目管理提出了更高的要求。以
山宁泰公司利用可持续、可再生的天然植物——欧薄荷制成了全新的Sanitized^? Mintactiv添加剂,该产品既满足纺织品制造商的严格要求,又契合山宁泰公司可持续发展的品牌目标
摘要:基于公钥密码体制构建的数字签名能够提供完整性,不可否认性以及不可伪造性等属性,从而被广泛应用于电子世界,也是系统科学老三论中信息论研究的热点问题。本文的主要目
近年来,随着国民经济的发展和人民生活水平的提高,农产品供给由短缺转为相对过剩,需求严重不足。同时江苏省农业会展发展迅速,但存在定位模糊、结构不合理、营销效果不佳等问
口语交际的目的是培养学生文明和谐地进行人际交往的素养,规范学生的口头语言,养成良好的听说习惯。然而在不少农村小学,口语交际教学现状却不容乐观。通过对农村小学口语交
目的探讨新生儿溶血病的早期诊断方法和治疗效果。方法凡查出孕妇血型为O或Rh阴性,并与丈夫血型不合,且抗A(或B)效价>1∶64,或抗Rh效价>1∶8,分娩时常规留取脐静脉血3ml,送验
基于瞬时特征提取的数字信号自动识别方法具有重要的应用前景。采用此方法识别信号时,需要提取信号的瞬时幅度、瞬时相位、瞬时频率去计算分类特征参数。但提取信号瞬时相位
科学城市发展观是科学发展观的重要组成部分,是关系城市建设、发展的本质、目的、内涵、要求的总体看法和根本观点。人本意识、全面协调和可持续发展是科学城市发展观的基本
用溶液共混法在常温常压下制备了不同比例的纳米羟基磷灰石/壳聚糖/羧甲基纤维素三元复合骨修复材料。用燃烧实验、IR、XRD、SEM及TEM对复合材料的组成结构及形貌进行了分析
线路在轻载运行下导致电能表计量出现较大误差,为提高电能表在各种负荷情况下其电能计量的准确性,对影响电子式电能表准确计量的原因进行了分析,并提出了相应解决措施。