面向大规模数据分析与分类的正则化回归算法

来源 :安徽大学 | 被引量 : 9次 | 上传用户:hunanlyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展及数据收集成本的不断降低,大数据时代已经来临。大规模数据分析是指对规模巨大的数据进行分析,从中获得有利于对个体或者群组进行辨识的对象,大规模数据分析技术的社会及市场需求也变得十分紧迫。降维是对数据预处理及进一步分析的有效方式,通常采用变量选择或者函数变换等途径来描述关键的数据结构(如局部性,判别性等等),因而在回归分析、机器学习、数据挖掘和模式识别等领域占据着十分重要的地位。数据降维往往能够提供对数据更加本质和深刻的理解,因而广泛用于特征匹配、模型解释、数据表示等。在过去二十年中,回归方法因模型直观和理论丰富等特点受到了广泛的关注,分片逆回归(SIR)由于它在降维方面的有效性也吸引了很多研究者。然而,SIR的两个缺点限制了它进一步的应用。第一,在高维数情况下SIR的计算复杂度较高。第二,在改进特征选择和模型解释能力方面,投影子空间的稀疏性没有很好的挖掘出来。另一方面,怎样从足够的辅助数据集中挖掘判别信息,去改进机器智能系统的理解和分析能力,在大数据时代是一个更加值得深入研究的课题。并且它有非常广泛的应用空间,包括图像分类、视频检索、金融数据聚类或预测。在图像识别方面,比如,图像分辨率的差异容易导致训练集与测试集的数据特征有较大的差异,为直接数据降维(如主成分分析)带来了性能上的困难;同一个对象在不同尺度或者不同视角下的观测结果,往往能够提供优势互补的数据描述。领域自适应的任务是提取每个领域的判别特征并且同时提高目标域的分类性质。迁移学习的方法提供了一些可能的方法来解决上面提到的问题。用目标域中非常少的有标签的数据并同时借助于源域中大量的有标签的数据去学习领域自适应,期望用迁移源域中的判别信息去提高目标域的分类特性。本文主要针对上述两个分面,从算法角度推出新的模型及数值解。本文第二章提出在谱空间里计算SIR的投影向量,从而以更快的速度得到一个近似的回归解。此外,自适应的lasso获得一个稀疏的全局最优解,这在变量选择问题上有着十分重要的意义。为了完成带遮挡的鲁棒模式分类问题,第二章提出了一个基于相关熵和分类回归的模型。在回归系数中使用一个光滑的惩罚项替代了稀疏的限制,使得基于回归模型的分类算法在应用中更加灵活。更加具体的学术贡献如下:(1)在特征谱空间中求解判别式回归系数,减小数据分析的计算复杂度。(2)引入回归系数的稀疏约束,增强高维数据分析模型解的解释性。(3)针对例外点和噪音数据,设计快速,稳健的分类算法。用高维面部图像和基因微阵列数据去评估新的算法,并且和其他一些先进的方法做了对比新方法获得了有竞争力的结果。本文第三章提出基于低秩表示和依条件转换的迁移学习方法(LRCT),为了减少实际中可能的限制,包括计算的复杂性,和进一步提升分类的性能。受低秩表示方法及其成功应用的启发,LRCT希望找到一组特征表示,以合适的方式表达出数据局部和光滑特性的变换投影矩阵,用最小重构误差把非均匀的数据投影到一个共享子空间上。新方法的创新点主要体现在通过一些概率假设建立了一个中间域(I),然后在中间域I和目标域T之间求得有效的低秩表示。具体的学术贡献总结如下:(1)在因果关系框架下研究条件分布不匹配问题,建立从中间域I到目标域T之间的低秩表示关系,并由此学习领域自适应特征。因此新的方法从依条件不变的特征中去利用低秩结构。(2)在数值优化问题上,本文重新参数化密度比(densityratio)函数,把这个参数化的方程转化成经典的二次规划问题,然后用选择优化策略的方法求解新的目标函数。与已有方法做比较,新的方法明显的减少了计算的时间。(3)特别前,第三章基于多步不动点近似迭代原理,针对新模型建立了一个新的数值优化方案。实验结果表明,新算法在迭代优化过程中能够减少了一个内循环,这对大规模的数据低秩表示来说是非常重要的。本文第四章对进一步的工作做出展望。
其他文献
文献综述银行业的市场竞争必然会对企业的信贷供给产生影响,现有关于银行竞争与企业借贷的文献并不少,但这种影响会产生积极还是消极的效果,不仅经济理论研究层面存在差异,而
期刊
改革开放以来,我国国有企业在运行方式和企业管理方面都取得了一定的进步和发展,在振兴我国的民族工业和推动工业化进程方面发挥了重要的作用.但是,在现阶段,我国国有企业在
<正> “十五”时期,是浙江加快信息化、工业化、城市化、市场化进程,为提前基本实现现代化奠定扎实基础的关键时期,经济社会发展面临的新背景和确定的新目标,对城市基础设施
于2014年7月8日至8月13日在成都市城区和工业区选取两个点位开展挥发性有机物(VOCs)样品采集工作,分析结果显示,成都市夏季城区大气中VOCs质量浓度在34.1~458.8μg/m2,平均值为(137.3&#1
本刊从2016年推出的《“十三五”十二人谈》栏目,邀请到了12位有识之士撰稿,以审视大势的眼光,结合行业实际,直击行业热点、焦点和痛点问题,他们高瞻远瞩的目光以及高屋建瓴的战略
现今,我们正处在一个信息技术高速发展的时代,电子产品如手机、电脑等的淘汰、更新速度越来越迅速,人们的日常生活也已经离不开网络,从QQ到微信的应用、从博客到微博的出现,
随着经济全球化和贸易自由化的发展,传统管理贸易的手段逐步弱化,名目繁多的对华贸易救济新措施对中国的出口贸易已造成一定威胁.本文旨在对潜在出口危机分析的基础上,就应对
目的:探讨氩气高频电刀对消化道息肉的治疗效果。方法:根据息肉大小、形态和有无蒂选择不同的方法。有蒂、亚蒂、无蒂半球状小息肉或广基小息肉用氩离子凝固术(argon plasma coa
中国本土品牌对消费者而言,“低端”与“价值”两个词总难以建立起紧密联系。 毫不令张地说,这10年里.两个“QQ”一度重新定义了中国老百姓的生活。一个是腾讯QQ,而另一个则来自