多标签分类问题的图结构描述及若干学习算法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:epslon111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签学习问题广泛存在于文本分类、图像标注、信息检索、基因功能分析、医学诊断、定向营销以及电子商务中的个性化推荐等很多现实的应用中,近年来得到了大量的关注和研究。多标签学习假设一个样本可被同时标注多个标签,且不同标签之间是相互依赖的,其与传统有监督学习的主要区别在于输出空间上。多标签分类问题的主要研究集中在多标签分类方法、标签结构学习、大规模标签问题、弱标签问题以及与其他学习问题的结合等方面。论文重点探讨多标签分类问题和分类方法的形式化描述、挖掘标签关联和处理大规模标签问题的多标签分类方法。(1)针对多标签分类问题和分类方法缺少形式化描述的问题,论文第三章重点为多标签分类问题的标签空间建立图结构,并对典型的多标签分类方法进行图结构描述。论文首先基于有限布尔代数和图论在标签空间上分别建立有限偏序集的哈斯图以及超立方体,以更好地反映多标签分类问题的结构化输出的特点。并证明标签空间的哈斯图和超立方体是同构的,具有一些好的性质。然后,在标签空间的超立方体结构上,对典型的多标签分类方法进行图结构描述,从而在统一的图结构中直观地表示多标签分类方法的特点及联系。(2)在多标签分类方法的图结构描述框架下,论文提出处理多标签隐含关联和大规模标签问题的若干学习算法。①针对挖掘数据隐含关联和数据降维在多标签学习中的重要性,论文第四章探讨两个基于典型相关分析(CCA)的多标签分类算法。第一个算法ML-CCA利用CCA来挖掘样本集与标签集之间的相关性并提取样本特征;第二个算法CCA_LSDR针对大规模标签问题,通过修改CCA的优化问题,要求标签向量的映射是正交的并且使得标签解码是低损的,从而获得结合样本信息的标签降维,并在预测阶段通过正交映射解码还原预测的标签集。在6个大规模标签数据集上的数值实验表明:ML-CCA和CCA_LSDR通过挖掘样本集与标签集的相关性能够保证学习性能;且与ML-CCA相比,CCA_LSDR通过标签降维能够实现更快的预测;另外,CCA_LSDR与其他标签空间降维方法相比,具有更快的训练速度。②针对挖掘标签关联的低维嵌入方法缺少综合考虑样本特征信息和分类误差的问题,论文第五章提出基于有监督低维嵌入的联合学习框架ML-SLDE/DML-SLDE,将挖掘隐含数据关联与最小化经验风险整合到一个联合框架中,平衡数据关联学习与分类误差在分类模型中的重要性。有监督低维嵌入建立在潜在语义分析的思想之上,能够结合样本特征信息和标签信息挖掘数据的隐含语义与关联,并提取有价值的低维特征建立多标签分类模型。而分类函数的系数由所得到的低维映射直接确定。为了验证ML-SLDE/DML-SLDE的性能,对10个典型多标签数据集进行对比实验,探讨算法在分类精度、训练复杂度以及对关键参数的敏感性等方面的表现。实验结果表明,ML-SLDE/DML-SLDE能够较好处理各种不同类型的多标签数据集,相对于其他五种算法,它在多个评价指标上都取得最好或第二好的结果;同时,ML-SLDE/DML-SLDE在大部分数据集上的训练时间具有明显的优势。另外,通过敏感性分析发现,ML-SLDE/DML-SLDE对于低维子空间的维度是鲁棒的。③针对现实应用数据的增量获取方式,论文第六章讨论第五章联合框架ML-SLDE/DML-SLDE的增量学习方案,在尽量利用历史计算信息的前提下,减少增量建模的时间花费。首先直接在原算法上进行简单的增量变形,提出ML-SLDE_I和DML-SLDE_I,并在7个不同规模的数据集上验证了ML-SLDE_I在很好地保持分类性能的同时,训练速度能够比不使用增量学习时快几倍,且随着旧样本地不断积累,使用ML-SLDE_I进行样本增量学习的优势会更突出。另外,针对简单增量变形存在的问题,提出基于增量SVD的样本增量学习方案ML-SLDE_SVDI。该方案建立在对联合框架的原形式ML-SLDE提出基于SVD分解的求解算法的基础上,避免了样本增量学习过程中需要在原形式和对偶形式间转换的问题。通过时间复杂度分析,预计该方案在高维低秩情况下能够更好地发挥增量学习的优势。实验结果表明,通过SVD分解对联合框架ML-SLDE进行求解和增量学习能够很好地保持学习精度,并且能比非SVD分解的算法具有更快的训练速度。
其他文献
<正>1痛经关于痛经之症,《景岳全书&#183;妇人规》说:“凡妇人经行作痛,挟虚者多,全实者少,……此以气虚血滞无力流通而然”。隔姜灸主治虚寒之痛经,疗效较好,举例如下:
聚乙二醇(PEG)、KH2PO4、赤霉素(GA3)和低温处理可以不同程度上提高甜椒二叶一心、四叶一心和六叶一心期的壮苗指数、根系活力、根系吸收面积和叶绿素含量,改善甜椒幼苗的生
在当今世界,企业之间的竞争已日益发展为形象之争,而企业形象定位是企业形象管理与设计的基础.企业怎样进行形象定位,在形象设计定位中,如何把握自我,充分了解消费者所重视的企业形
急性胰腺炎发病机制主要是胰酶在胰腺内被激活,从而引发胰腺组织的自身消化、水肿、出血、坏死,是常见的急腹症,病情较复杂多变。近年中西医结合治疗该病成为主流,针刺是其中
[摘 要] 随着我国经济的不断发展,我国的对外贸易量显著增长,对美贸易顺差不断扩大,外汇储备屡创新高,因此不论是对内还是外,人民币都存在着升值的压力。而人民币升值后影响最大的是进出口贸易。本文以笔者所在的秦皇岛市为例分析一下本币升值后对我市出口贸易的主要影响。  [关键词] 汇率 升值 出口贸易     一、人民币汇率升值的基本情况  2005年7月21日中国人民银行宣布放弃单一盯住美元的汇率政策
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
赣南老区有发展红色旅游的独特优势,但要把优势变成胜势,必须注重品牌建设。本文旨在对赣南红色旅游品牌的创建提出一些建设性的意见,以资参考。
计量测试是机械制造的基础支撑。自20世纪70年代率先在国内开展激光及光电测试技术研究以来,研究室依托精密测试技术及仪器国家重点实验室,以汽车制造、航空航天制造与检测、
本文主要采用了专家访谈法、问卷调查法、数理统计法和逻辑分析法对福州市高校篮球俱乐部的开展现状进行了较全面深入的调查研究与分析。探讨影响福州市高校篮球俱乐部发展的