面向在线学习的优化理论及算法研究

来源 :南京理工大学 | 被引量 : 1次 | 上传用户:zzp90518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息发布方式的不断发展以及云计算、物联网等技术的兴起推动人类社会迈进了大数据时代。大数据时代,数据连续不断、来源众多、价值密度低,数据处理工具要兼顾实时性、可在线处理和在线分析。在线学习技术采用流式计算模式,操作流程简洁快速,学习复杂度低,模型更新速度快,为大数据特别是流式数据的处理提供了一种强有力的工具。在数据可实时处理的前提下,模型的泛化能力(如学习误差、模型空间复杂度)也是研究的重点。正则化技术由于具有模型空间控制功能、可解决建模过程中出现的过拟合等问题,是机器学习研究的一条主轴。目前,大规模数据的学习问题广泛存在,为这些问题量身打造而设计出的简约模型和有效算法将很有前景,也十分必要。为处理大规模数据的学习问题,本论文主要在正则化框架下对在线学习技术进行了进一步的研究和探索,提出了若干在线学习算法,并应用于数据分类、预测、联合分析、图像处理等问题。论文的主要工作与创新点概括如下:(1)提出了基于耦合线性化的在线学习算法。针对目标函数为非光滑的经验风险极小化问题,设计了一种耦合线性化的在线交替方向乘子算法。该算法操作简洁、易于实施。首先,将原问题转化为与之等价的具有可分离结构的等式约束优化问题;接着,对约束优化问题的拉格朗日函数进行分解,得到三个子问题;然后,通过变量固定技巧对子问题分别优化求解。算法每次迭代实施三次线性化操作,求解过程不涉及矩阵求逆运算,且每一步都能得到一个闭式解。通过详尽的理论分析得到了算法的Regret界及收敛速度:对一般的凸学习问题而言,在适当的条件下,其收敛速度为O(1/(?));对于强凸学习问题,其收敛速度为O(log T)/T),其中T表示样本的个数。与当前一些相关算法的对比实验验证了所提算法的可行性和有效性。(2)提出了基于谱梯度下降的在线学习算法。针对目标函数可表示为大量组件函数的平均,且每个组件函数都是光滑的这样一类问题,设计了一种随机谱梯度下降的在线学习算法。与传统的随机梯度下降算法不一样的是,该算法利用Rayleigh商收集目标函数的二阶信息,构造海塞矩阵逆的近似,从而设计了新的学习步长。算法每次迭代所产生的搜索方向具有下降性,现有理论保证了算法收敛。所提算法可以看成是谱梯度方法从确定性优化到随机优化的延伸。在基准数据集上的实验结果表明所提算法是可行的、有效的。(3)提出了面向在线学习的加权多任务特征选择算法。针对特征选择问题中变量稀疏性增强问题,设计了两种加权的多任务特征选择模型,同时给出了求解模型的在线学习算法。据我们所知,该工作是第一个研究在线加权多任务特征选择的工作。这里提出的在线学习算法的优势包括:i)可以应用于训练数据顺序获得的情形,可以在任意时刻执行训练过程;ii)可以处理任意数目和任何维度的数据;iii)推导出更新相应模型权值的闭式解,模型训练相对高效。算法每次迭代在最差情况下的时间复杂度和存储开销成本都是O(N× Q),其中N代表特征的维度,Q表示任务的个数。此外,分析了算法的Regret界,保证了算法的收敛性。实验表明,在线的加权多任务学习算法能得到更稀疏的解,同时拥有更快的收敛速度。(4)提出了面向在线学习的字典学习算法并应用于图像去噪。针对基于稀疏表示的大规模图像去噪问题,利用噪声不能在任何字典上稀疏表示的特性,设计了一种小批量K-sparse字典学习算法。考虑具有l0范数约束的K-sparse优化模型,利用交替优化的方式对模型进行求解。所提算法每次迭代只使用少量的训练样本进行编码和字典更新。具体而言,在稀疏编码阶段,采用迭代硬阈值策略更新表示系数;在字典学习阶段,则采用投影梯度下降策略进行字典更新。具体的操作流程是先从含噪图像中提取出大量的子图像作为训练样本,接着采用分块学习技术得到一个冗余的字典,然后通过含噪图像在该字典上的表示系数实现去噪。实验表明,与现有的一些算法相比,所提算法具有较好的性能,不仅可以更好地去除图像中的噪声、提升图像的视觉质量,而且收敛速度快、计算效率高。
其他文献
要想拥有一个成熟、健全、完善、有效的证券市场,我们至少应该在立法上保证相关的金融信息能够快速传递,同时保证广大投资者平等地享有获取证券信息的机会,这样的市场才能不断增强证券投资者对证券市场的信心,不断促进一个国家金融市场的发展。如果一个国家的金融市场上存在部分人能够利用其特殊地位或机会获取内幕信息并因此获利,这样就剥夺了证券市场上其他投资者平等竞争的机会,也违背了证券市场公平、公正、公开的原则。各
目的对我国不同地区养殖场、批发市场、农贸市场及超市不同畜禽肉的重金属检测结果进行分析、比较,评价其食用健康风险。方法共采集2015~2017年我国华北、东北、华东、华中、
近年来,农业逐步向着智能化、精准农业转变。基于此,本文概述了智能化农业装备,分析了精确农业技术,提出了相关发展对策,以期为推进农业发展做出贡献。
为确定袋鼠死亡原因,本研究采用Biolog快速鉴定系统、16SrRNA序列分析以及传统细菌鉴定方法对2株分离自北京动物园袋鼠肺脏的菌株进行形态学、培养特性、生化特性、小鼠致病性
从本期起,本刊将开辟标准化专栏什么是标准?标准意味着合理地满足需要,它是用来指导生产的。一般说,工业越发达,分工越细,劳动生产率越高,标准的重要性也越显著。可以这样说,
随着医学影像在现代医学诊断、治疗中的广泛普及和使用,医学图像处理技术得到了极大的关注。但是传统的医学图像处理依赖昂贵的工作站和专业的处理软件,处理的成本高、效率低
目的:分析及探讨原发性肝癌与肝转移癌中医证候的区别与联系. 方法:采用回顾性研究,对原发性肝癌和肝转移癌患者的症状及体征进行频率统计,并对其进行聚类分析,归纳总结两
传统的有机荧光小分子由于聚集诱导猝灭效应,在高浓度或固体状态下,荧光强度会有明显的降低,因此在使用过程中必须严格控制荧光探针的浓度,而给检测带来不便;此外,有机染料及其中间产物的化学结构比较稳定,在自然界中很难降解,会给人类和水生生物造成很大的危害。为了减弱其影响,我们通过多种方法制备得到了荧光复合材料,进一步拓展了其应用范围。本文的主要研究内容和结果如下:(1)由于采用水作为溶剂,乳液聚合所制得
在中式风格住宅中,不仅要诠释该建筑的功能分类,更需要我们能够将人文思维和传统文化等价值底蕴,融入整个视觉符号的设计与表达过程之中,通过合理应用该文化因素,从而赋予该
目前,光伏组件的封装材料主要是乙烯-醋酸乙烯酯共聚物(EVA)。EVA树脂具有高透光性,低熔点的特性。但是由于EVA较差的耐候性与粘接性能,众多科研工作者正努力开发其替代产品