稀疏学习及其在多标记学习中的应用研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:xllq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是一种旨在设计和实现特定算法,使得计算机能够根据经验数据进化自身行为。它隶属于计算机科学中的人工智能范畴,也是近来人工智能学科研究最活跃的子领域。机器学习的研究在计算机视觉,自然语言处理,生物信息学和生物医学等领域有着广泛的应用。稀疏性作为数据的重要特征,可以大为简化数据的表示,减少计算,并且更容易获得对于数据“宏观”特征的把握。在各种实际问题中广泛存在着稀疏性,利用这些稀疏性更好地提高解决实际问题算法的性能,这是机器学习/数据挖掘领域有趣而重要的研究内容。在本文中,我们通过挖掘不同实际问题的特征引出不同的稀疏学习模型。通过回顾作为稀疏学习理论基础的不定线性方程组的稀疏解理论了解到l1约束的优化问题在稀疏学习中所起的作用。并通过线性回归问题为减小方差而进行的特征选择引出LASSO算法。通过LASSO算法在针对群组变量选取,树形结构特征选择以及图上的相关性挖掘任务中的应用介绍了Group LASSO, Tree Group LASSO以及稀疏逆协方差估计。这些广泛应用的稀疏模型是利用稀疏性求解新问题的基础。为了高效地求解不同稀疏学习模型,我们探究了多种方法。传统的坐标下降受到收敛性问题的困扰以及二阶算法需要更大的时间空间开销促使我们寻求迭代中更容易计算的一阶黑盒方法。Nesterov的针对光滑的凸优化问题的O( 1√? )的算法提供了稀疏学习求解的框架。而该框架中需要解决的重要步骤便是向l1球上的投影。我们回顾了当前优秀的枢纽元算法以及零点算法,通过他们的求解变量,求解步骤以及时间复杂度分析阐述了二者之间的等价性,并提出了一种基于两次二分过程的改进的零点算法,在保持求解效率的同时降低了编程复杂度。在传统基于实例的多标记学习中,我们经常陷入选择相似性度量以及邻域大小的困难境地。针对该问题,我们试图建立一个自适应邻域,以避免对于相似性度量以及邻域大小选择。受稀疏表示在人脸识别中的应用的启发,我们通过一个类似稀疏表示的优化问题来确定该自适应邻域,该问题有着同稀疏学习相同的复杂度但有着对于邻域信息更好的解释性。基于该自适应邻域,我们设计的加权和算法能够实现对于多标记数据的分类过程。在公共数据集上的实验显示,自适应邻域算法能够获得比当前state-of-the-art算法更好的性能。
其他文献
随着计算机软硬件技术的不断发展,大量的数据得以收集。与此同时,原有的数据处理及分析技术面临着越来越多的挑战。分类是机器学习和数据挖掘的一项基本任务,如何构建泛化能
如今,在三维应用(特别是电脑游戏)的推动下,实时三维图形技术的发展速度非常快,对计算机图形学相关领域产生了很大影响。但是,随着模型和场景复杂程度的急剧增长,实时性的要求也越
随着现代信息科技的发展,信息作为一种重要的资源正不断受到外部和内部的各种威胁,访问控制是一种保护信息安全的重要措施。近些年来,基于角色的访问控制(Role-Based Access
继主机计算、桌面计算之后,计算机迎来了普适计算这个新的计算模式。研究者们希望在该模式下,任何人可以在任何地方任何时候获取自己需要的任何服务。要成功的实现这一目标,对服
磁共振成像技术是一种无介入性伤害的医学成像技术,磁共振图像对医生的诊断起到辅助作用。使用计算机分析磁共振图像,能够提高诊断的效率和准确率,对疾病的预防和提前治疗具
语义Web技术解决了传统Web服务发现查全率和查准率低下的问题,已成为国内外的研究热点。然而由于语义计算的复杂性,导致了语义Web服务发现效率低下,如何在保证查全率和查准率
随着移动定位技术的发展,位置服务(Location-based Service)中的时空对象位置隐私保护技术成为学术界关注的热点。目前,时空对象位置隐私保护技术研究在情境感知下位置隐私保
随着业务规模的不断扩大以及业务变得越来越复杂,企业经常需要增加内部应用系统。如果这些应用系统在设计时没有将其作为整个企业信息系统的一部分,将造成各个应用系统之间的协
传感器网络的覆盖问题是传感器网络的重要研究内容,较强的监视能力和较高容错率对传感器节点的覆盖质量提出了较高的要求。论文从提高区域覆盖质量和延长网络使用寿命两个角
数据挖掘是多个领域的交叉学科,用于分析海量数据中的潜在关系以给人们提供有价值的帮助。聚类分析是数据挖掘中的重要技术,它是在无先验知识情况下,按照一定的要求和规律,将