基于特征和标签空间降维的多标签分类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:harric1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多标签分类中,每个样本可能同时属于多个类标签,在商品推荐、生物功能预测和文档标注等多个方面有着广泛的应用.在数据爆炸的时代,数据规模通常是巨大的,即大量的样本示例、类标签和特征属性.高维特征空间和稀疏标签空间给多标签分类带来很大挑战,容易降低分类效率、破坏分类精度.为解决多标签数据的分类问题,本文基于特征和标签空间降维对其进行研究,主要工作如下:针对多标签分类中存在的特征高维和标签稀疏等问题,本文提出一种基于特征和标签空间降维的多标签分类算法(FLE-MLC),该算法侧重于编码标签空间.首先通过主成分分析最小化低维特征的相关性,实现特征空间降维去噪的目的.然后提出基于Hilbert-Schmidt独立性准则的标签编码方法,该方法可以同时最大化潜在标签空间的重构性和潜在标签与低维特征之间的依赖性,从而将标签空间编码为线性无关的低维标签.这种双空间降维过程既考虑了特征属性和类标签之间的依赖性,又有效避免了噪声信息的影响,保证了较少的维数包含大量的有效信息.最后在低维有效的空间上学习一组多标签分类模型.为了验证该模型的分类性能,本文将FLE-MLC算法与8个经典的分类算法在10个多标签数据集上进行实验,实验结果显示本文提出的算法优于其它算法.近年来,有相当研究表明特征降维对多标签分类的影响更大,所以第二种方法侧重于特征空间的降维,提出一种基于奇异值分解和流形正则化的多标签分类算法(SDMR),该算法首先依据奇异值分解找到最优的奇异向量作为标签投影方向,进而将稀疏标签编码到低维有效的空间中.然后提出一种有监督特征降维方法,即基于流形正则化改进的主成分分析(PCAM),该方法在特征降维中考虑标签信息,保证标签和特征的几何结构始终保持一致.最后将传统的多标签分类器应用在低维有效的空间上,进而提高多标签分类的性能.在多标签数据集上的一系列实验表明,该算法可以获得更好的分类精度.
其他文献
高镍三元正极材料LiNi0.6Co0.2Mn0.2O2(NCM622)具有放电比容量高、能量密度大、成本低廉等优点,是一种极具发展潜力的动力型锂离子电池(LIBs)正极材料。然而,倍率性能和高截止电压下循环稳定性差以及低温环境下容量衰减严重等问题限制了其在LIBs中的进一步应用。本文对NCM622正极材料进行掺杂改性研究,系统研究了其高倍率性能和低温性能。结合TEM、SEM、XRD精修、原位XRD
学位
过渡金属硫族化合物中原子级厚度的二硒化钨(WSe2),因具有良好的载流子迁移率及1.60 e V(单层)的禁带宽度,所以在光电子器件及微电子器件等应用方面有效地弥补石墨烯零带隙的缺点。此外二硒化钨的表面无悬挂键,原子层厚度的材料制作成的晶体管有望减少短沟道效应,在后摩尔的时代发展前景十分广阔,因此二硒化钨成为目前科学家们的研究热点之一。研究已经表明,应变可以调控材料的能带结构和激子跃迁,从而在传感
学位
学位
光电信号转换在我们日常生活中具有举足轻重的地位。视频成像、光通讯、生物成像、安全、夜视、气体传感和运动监测等设备都需要高性能、大面积的光电信号转换技术。基于原子层厚度的二维过渡族金属硫化物的新型光电探测器兼具高速、宽谱、柔性等优点,备受研究人员关注。而二维半导体光电探测器的响应度和响应波长尚不能满足硅基光子学等应用的要求,严重制约了二维半导体器件的集成和应用。硅通常在约1.5%的应变下就会发生断裂
学位
聚类作为一种重要的数据挖掘方法,能够发现未知数据的潜在模式,进一步指导实践.传统聚类算法受参数或数据类型影响,往往表现不佳.集成聚类通过学习多个模型来解决一个问题,从而获得一个准确度和鲁棒性都更强的结果,在一定程度上缓解了单个聚类算法的困境,拓宽了聚类算法的应用场景.目前已经形成了很多集成聚类算法,但是仍存在三个问题:一是侧重于集成策略的设计,忽视了生成阶段基聚类质量对最终聚类结果有着直接的影响;
学位
DNA结合蛋白是一种由结构蛋白组成的复合型蛋白质,这类蛋白质在特定的核苷酸序列识别、DNA复制和重组、基因转录调控和其他DNA相关活性方面发挥着重要作用。而N6-甲基腺苷作为已知最丰富的RNA甲基化修饰之一,它与结构动力学、RNA定位和降解、选择性剪接、细胞分化、m RNA稳定性和翻译等生物过程息息相关。据研究表明,它还与多种疾病密切相关,例如:前列腺癌、急性髓系白血病、甲状腺肿瘤等。故对DNA结
学位
微电子、计算机、集群技术的蓬勃发展,使得无人机(Unmanned aerial vehicle,UAV)的生产成本逐步降低,并且功能愈发强大。单架无人机可用于执行多个任务,但受限于其所搭载的武器弹药、侦测设备、最大航程、飞行速度等因素,导致其无法独立完成多个目标点的侦察和攻击任务。因此,无人机协同执行多任务问题越来越受到军事和民用专家及学者的关注,世界各国纷纷将集群作战作为未来执行任务的新样式并开
学位
我国制造业面临日趋激烈的市场竞争,行业内竞争者众多,产品同质化严重,企业保留客户变得十分困难。与此同时,随着客户产品渠道与信息来源丰富,客户转换供应商更加自由。面对这样的竞争局势,提高客户的转换成本成为企业与客户保持长期关系、预测客户保留和建立客户忠诚度的不二选择。但是企业缺乏控制转移成本的手段,因此,如何利用转换成本来锁定客户成为企业亟需解决的问题。现有研究主要关注于转换成本的结果变量,对其前因
学位
近年来,有机-无机杂化钙钛矿电池(PSCs)因空穴电子迁移率高、载流子扩散长度长、宽波长范围内吸光系数高、带隙可调(1.15~3.06 e V)、光电转换效率(PCE)高(25.7%)等突出优点,使得钙钛矿基叠层太阳能电池被认为是有望突破单结太阳电池理论效率极限、效率达到30%以上的可行解决方案。在钙钛矿基叠层电池中,带隙为1.65~1.75 e V的宽带隙钙钛矿(WBPs)可有效吸收太阳光谱短波
学位
互联网的快速发展使得数据的存储与利用被广泛的研究,聚类作为数据挖掘中一种重要的方法,能够仅根据数据中简单的描述关系信息对数据进行适当的分组.然而,传统的聚类算法具有不稳定和鲁棒性较差的缺点,这使得在许多聚类任务上往往无法达到预期的聚类效果.为了提升传统聚类算法的性能,研究者利用少量数据的先验信息(成对约束)和应用集成学习的思想,分别提出了半监督聚类和聚类集成方法来改善传统聚类的缺点.而半监督聚类集
学位