快速、鲁棒的半监督学习算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ernest5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习作为智能信息处理的代表性方法在近几十年中取得了飞跃式的发展。然而经典的监督学习需要大量人工标记的数据作为训练样本;由于标记样本往往代价高昂,从而大大提高了监督学习方法的使用成本。因此,人们转而寻求能够使用少量标记样本和大量无标记样本的学习方法,由此产生了对半监督学习问题的广泛关注。   早期对半监督学习的研究集中于如何在统一的框架内使用标记样本和无标记样本,如何建立新的模型以及新的学习方法;往往忽视了半监督学习方法的实用性。这具体表现在多数半监督学习方法的计算复杂度过高,而且在实际应用中的性能不稳定。本文的研究目的在于通过改进模型、使用近似算法等手段,提出实用有效的半监督学习算法,使其在精度、鲁棒性、计算复杂性方面达到应用的要求。具体地,本文针对半监督学习中最具代表性的基于图的半监督学习方法进行了全面的研究,并在构图、标记学习算法等方面提出了改进方法。本文的主要内容和贡献包括:   1.提出一种针对保持数据局部性的构图方法(LPGC)。将欧式距离作为距离度量,LPGC通过最小化所有的节点间加权距离和来构造图。经过求解一个二次规划问题,LPGC可以同时学习图上的连接关系和边上的权重。由于该二次规划问题的解通常是稀疏的,我们利用这一性质设计了基于切平面方法的优化算法,从而大大提高了效率。经过聚类和分类实验,LGPC方法表现出了比常用的k近邻图和ε近邻图更出色的性能。   2.提出一种基于自适应图的直推学习方法(TLAG),它的最大特点是同时学习样本标记和构造图。这样做的意义在于,TLAG方法可以利用样本的标记信息指导图的构造。TLAG使用一个迭代算法优化目标函数。每轮迭代完成两个操作:第一步,基于当前图和当前的预测标记,学习一张新图;第二步,使用新图,重新预测数据标记。实验表明,TLAG方法相比传统基于图的方法在精度方面有一定的提升。   3.提出一种基于最小张成树的快速、鲁棒的直推学习方法(MTC),并证明最小张成树结构对图参数选取的鲁棒性。MTC方法由两步构成:首先,使用最小张成树近似表示图;然后,通过割最小化准则对张成树进行标定。除去最小张成树构造简单之外,它对于图的构造十分鲁棒。对于ε近邻图和径向基权重函数,我们严格地证明了最小张成树的连接结构对于ε的选取具有不变性。更重要地,基于树的最小割标记算法具有线性的时间和空间复杂度,使MTC方法非常适宜在大规模问题中使用。大量的实验表明,MTC方法在鲁棒性和速度方面相对传统方法有明显改善。   4.在半监督学习中使用低维嵌入假设,提出子空间正则化方法以及基于子空间正则化的半监督学习算法。方法的出发点在于:通过将高维数据投影到低维空间,缓解了维度灾难的影响,使分类器的训练更为简单。具体的,我们提出了一个优化准则用于同时学习降维子空间和定义在子空间上的分类器。优化目标含有两个部分:数据拟合项用于评价不同类别的标记样本在降维子空间中的可分程度;而正则项用于评价在降维过程中数据信息的损失程度。相比使用平滑假设的基于图的方法,新方法在处理图同类别相互重叠等情况时具有明显优势。
其他文献
随着人类对未知环境探索的越来越深入,探索中的特殊环境(如太空探索、深海打捞及强核辐射等)已经制约了人类活动的发展,仅仅依靠人类本身无法在复杂多变,甚至危险的环境中顺利完
我国城市化的进程加快,使得城市用地需求增加,城市土地利用中的矛盾日趋紧张。因此,必须有合理的城市土地利用方案来对城市规划进行引导。针对城市土地利用具有控制因素复杂
自然冷却空调机组或者带有自然冷却功能的空调机组在通信机房制冷领域的应用开始普遍起来,很多空调设备公司都开始通信机房节能一体化空调设备的研发和测试,但是关于这种节能
伴随着现代工业科技的快速发展,工业对测量精度要求越来越高,视觉测量技术在工业生产中有重要地位。它具有速度快、精度高、非接触、自动化程度高等优势,该技术近年来在非接
EtherCAT(IEC61158 Type12)是一种先进的实时以太网技术,具有极好的实时性能,目前主要应用于对实时性、通信可靠性要求严格的领域如高速印刷机、注塑机、机器人技术、机床、数
在语音信号的检测过程中,被测语音信号通常比较微弱,很容易被噪声干扰和淹没,导致提取纯净的语音信号的工作很难进行。语音增强技术是解决这个问题的关键技术之一,为了消除噪
随着世界范围的人口增长和城镇化进程,人群控制和公共空间设计变得越发重要。在众多用于这方面应用的群信息中,人数值和人群密度是一项重要的信息,因为不同的人群密度通常需
本文是在国家自然科学基金“基于耦合传感反馈的鱼游CPG的多模态控制”的支持下完成的。本文针对机器鱼的嵌入式视觉进行研究,实现仿机器鱼的视觉导航。   本文提出了一种
随着机器人应用领域的不断拓展,多机器人系统以其柔性、并行性及鲁棒性等特性受到普遍重视,围捕作为代表性的多机器人任务以其天然的动态性和对抗性成为研究热点。本文主要针对
两轮自平衡机器人是轮式移动机器人中重要的一类仿生系统。而桌面型两轮机器人不仅在体积、成本上具备优势,而且它可以实现在大型两轮机器人上无法实现的控制算法,具有广泛的应