论文部分内容阅读
随着互联网技术的飞速发展及数据收集成本的不断降低,大数据时代已经来临。大规模数据分析是指对规模巨大的数据进行分析,从中获得有利于对个体或者群组进行辨识的对象,大规模数据分析技术的社会及市场需求也变得十分紧迫。降维是对数据预处理及进一步分析的有效方式,通常采用变量选择或者函数变换等途径来描述关键的数据结构(如局部性,判别性等等),因而在回归分析、机器学习、数据挖掘和模式识别等领域占据着十分重要的地位。数据降维往往能够提供对数据更加本质和深刻的理解,因而广泛用于特征匹配、模型解释、数据表示等。在过去二十年中,回归方法因模型直观和理论丰富等特点受到了广泛的关注,分片逆回归(SIR)由于它在降维方面的有效性也吸引了很多研究者。然而,SIR的两个缺点限制了它进一步的应用。第一,在高维数情况下SIR的计算复杂度较高。第二,在改进特征选择和模型解释能力方面,投影子空间的稀疏性没有很好的挖掘出来。另一方面,怎样从足够的辅助数据集中挖掘判别信息,去改进机器智能系统的理解和分析能力,在大数据时代是一个更加值得深入研究的课题。并且它有非常广泛的应用空间,包括图像分类、视频检索、金融数据聚类或预测。在图像识别方面,比如,图像分辨率的差异容易导致训练集与测试集的数据特征有较大的差异,为直接数据降维(如主成分分析)带来了性能上的困难;同一个对象在不同尺度或者不同视角下的观测结果,往往能够提供优势互补的数据描述。领域自适应的任务是提取每个领域的判别特征并且同时提高目标域的分类性质。迁移学习的方法提供了一些可能的方法来解决上面提到的问题。用目标域中非常少的有标签的数据并同时借助于源域中大量的有标签的数据去学习领域自适应,期望用迁移源域中的判别信息去提高目标域的分类特性。本文主要针对上述两个分面,从算法角度推出新的模型及数值解。本文第二章提出在谱空间里计算SIR的投影向量,从而以更快的速度得到一个近似的回归解。此外,自适应的lasso获得一个稀疏的全局最优解,这在变量选择问题上有着十分重要的意义。为了完成带遮挡的鲁棒模式分类问题,第二章提出了一个基于相关熵和分类回归的模型。在回归系数中使用一个光滑的惩罚项替代了稀疏的限制,使得基于回归模型的分类算法在应用中更加灵活。更加具体的学术贡献如下:(1)在特征谱空间中求解判别式回归系数,减小数据分析的计算复杂度。(2)引入回归系数的稀疏约束,增强高维数据分析模型解的解释性。(3)针对例外点和噪音数据,设计快速,稳健的分类算法。用高维面部图像和基因微阵列数据去评估新的算法,并且和其他一些先进的方法做了对比新方法获得了有竞争力的结果。本文第三章提出基于低秩表示和依条件转换的迁移学习方法(LRCT),为了减少实际中可能的限制,包括计算的复杂性,和进一步提升分类的性能。受低秩表示方法及其成功应用的启发,LRCT希望找到一组特征表示,以合适的方式表达出数据局部和光滑特性的变换投影矩阵,用最小重构误差把非均匀的数据投影到一个共享子空间上。新方法的创新点主要体现在通过一些概率假设建立了一个中间域(I),然后在中间域I和目标域T之间求得有效的低秩表示。具体的学术贡献总结如下:(1)在因果关系框架下研究条件分布不匹配问题,建立从中间域I到目标域T之间的低秩表示关系,并由此学习领域自适应特征。因此新的方法从依条件不变的特征中去利用低秩结构。(2)在数值优化问题上,本文重新参数化密度比(densityratio)函数,把这个参数化的方程转化成经典的二次规划问题,然后用选择优化策略的方法求解新的目标函数。与已有方法做比较,新的方法明显的减少了计算的时间。(3)特别前,第三章基于多步不动点近似迭代原理,针对新模型建立了一个新的数值优化方案。实验结果表明,新算法在迭代优化过程中能够减少了一个内循环,这对大规模的数据低秩表示来说是非常重要的。本文第四章对进一步的工作做出展望。