存在缺失标记的鲁棒多标记学习方法研究

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:sb37sb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多标记学习中,每个对象代表单个示例且同时与多个标记产生关联。其最初的研究主要集中于文本分类中的多义性问题,目前已应用至图像识别,语音识别,基因分类等多个领域。现有的多标记学习算法通常假设标记集中标记的信息是完整的。然而,在大数据时代,由于数据集标记的过程繁杂、标注者关注点不同而对一些标记信息的忽略、标注者自身缺乏所需的专业知识等相关因素,导致很难收集到完整的标记集数据,这些缺失的标记信息会对模型的构建产生重大影响,不仅造成模型在这些缺失类别上丧失判别能力,而且会对已知类别上的预测性能产生影响。这种在某些标记类别上信息的完全缺失问题不同于常见的多标记学习中在一些已知类别上局部标记缺失问题,无法通过一些常用的低秩结构、矩阵补全等方法进行标记信息的恢复。为了对这些在某些类别上完全缺失的标记信息进行挖掘,本文提出一种名为MLLHL(Multi-Label Learning with Hidden Labels)算法不仅可以恢复那些在某些类别上完全缺失的标记信息,而且可以对于未知示例同时预测缺失标记和已观测标记。本文首先构建一个由已标注类别和缺失类别组成的完整标记集合,已标注的标记集合可以通过这个完整标记集合经过相应的列选择步骤得到。然后,为了使特征空间中相似示例之间的结构关系在这个完整标记集合中得到保持,对构建的完整标记矩阵添加相应的流形约束。其次,本文在特征空间和这个学得的完整标记空间之间学习一个分类模型,并对模型系数添加相应的约束项,以保持标记之间的相关关系和避免噪声数据的干扰。最终,对于任一未知示例,通过学得的分类模型可在其已标注类别和缺失类别上预测其标记信息。实验结果证明,MLLHL算法相比于其它类似优秀算法取得了更好的性能。并且这些完全缺失的类别标记可以进一步提升模型在已知标记上的预测性能。为了验证所提算法的实际应用效果,本文将MLLHL算法在一些原始文本数据集上进行了实际应用,并取得了良好的实验性能。
其他文献
目的 观察中药熏蒸联合牵引治疗气滞血瘀型腰椎间盘突出症(LDH)的临床疗效。方法 将86例气滞血瘀型LDH患者按照随机数字表法分为2组,对照组43例予牵引治疗,治疗组43例在对照组治疗基础上加用中药熏蒸。2组均1周为1个疗程,治疗6个疗程。比较2组疗效;比较2组治疗前后日本骨科协会(JOA)腰椎功能评分、炎症因子[白细胞介素1β(IL-1β)、IL-6、IL-17、TNF-α]水平、中医证候评分、
期刊
在多标记学习中,每个实例同时具有多个类别标记,一个样本由实例和它的多个标记共同组成,最初提出多标记学习的目的是为了解决文本分类中的多义性问题,而后被广泛应用至音乐分类,视频分类,图像识别等领域。多标记学习的任务是通过已知的样本数据去构建模型,用以预测未知实例的类别标记。大数据时代的到来使得数据量不断激增,随之多标记学习处理的数据通常具有较大规模,体现在数据集的样本数量众多、特征空间维度较高和标记空
学位
高炉冶炼在整个钢铁工业生产环节中占有重要的地位,但高炉内部冶炼过程复杂,因此对高炉运行状态进行准确、有效的评估成为了近年来的研究热点。保障高炉顺行就是为了生产出高质量的铁水,若能预测出铁水质量,高炉操作人员可以提前采取措施进行控制,因此出铁前精准预测铁水质量具有非常重要的现实意义。本课题针对铁水质量预测和如何实时监控高炉运行状态进行了研究,主要工作包括如下两部分:(1)铁水质量主要是以硅和硫含量为
学位
随着工业化加速,人类对能源的消耗也日益增加。人类广泛开发和利用不可再生能源,造成能源供给短缺,环境污染日趋加重。热电材料是利用材料内部载流子运动和Seebeck效应以及Peltier效应来实现能量转换的一种绿色环保功能材料,可以实现热能和电能的直接转换,能在余热回收和发电方面发挥出重要的作用。half-Heusler热电材料具有化学组成相对简单、不含有毒元素、元素丰度高,以及具有优异的热稳定性、机
学位
随着世界范围内碳中和计划的推行以及越来越严格的排放法规的实施,人们迫切需求可再生的清洁的传统能源替代燃料,生物质能源因为具有与传统能源相似的物化特性、以自然作物为原料和其本身的富氧特性,以及成熟的生产制备技术而成为在未来具有巨大应用潜力的燃料。但其和传统的碳氢燃料一样会产生CO2温室气体和空气污染物碳烟、NOx、CO等,所以深入研究生物质含氧燃料燃烧以及碳烟生成机理对其未来的推广应用是十分重要的。
学位
由于城镇化和经济发展需求,我国污水处理能力与处理率都显著提高,而污泥作为污水处理过程中附属产物,其总产量也呈持续增长趋势,过量的污泥产生则意味着如果不及时妥善处理处置,必定会造成严重的环境污染。由于污泥中含有可资源化利用的能量,因此厌氧消化以及好氧堆肥处理方法是当前使污泥减量化、资源化、无害化的研究重点。钢渣作为一种工业固体废物,因其结构和成分的特殊性,逐渐被重视并成为环境治理材料,本文便以钢渣作
学位
随着计算机科学技术的发展,虚拟现实技术迸发出了前所未有的创造力与动力,被广泛应用于教育娱乐、室内设计、应急推演、建筑施工等诸多方面。近些年来全国各地建筑施工安全事故频发,这些事故不但造成财产损失和人员伤亡,而且在社会上造成非常恶劣的影响。Kinect作为虚拟现实的一个技术分支,故本次设计涉及的主要技术领域包括虚拟现实技术、计算机动画技术以及虚拟人技术等领域。本文主要研究的关键性技术包括深度图像的获
学位
近年来我国高新技术产业成果斐然,一大批优秀的互联网科技公司势如破竹,在资本市场上崭露头角,与此同时科创板应运而生,双层股权结构进入了大众视野。虽然通过上市融资可以满足公司前期发展的资金需求,但原有创始人的股份会随之被慢慢稀释。经历了本土优秀企业在海外上市,导致国内流失发展潜力大的高新技术公司后,我国开始逐步放开股权制度的限制。本文以优刻得公司的双层股权结构设计为出发点,分析实施这种股权结构对公司产
学位
近年来,随着人工智能技术的的飞速发展,国内外研究机构开始研究如何让计算机来自动解题。现有自动解题系统主要通过手工或半自动的方式,从试题文本及相关资源中获取解题知识,其难点在于隐含解题知识的获取。本课题基于三支概念分析理论,通过决策形式背景构造、三支概念格构建以及决策规则提取,从试题文本中自动获取隐含解题知识,进而提升现有自动解题系统的解题效果。本文主要工作如下:(1)试题文本的语义分析针对地理试题
学位
在天然气生产和集输过程中,管道内会因介质压力、环境温度和天然气含有水分而形成水合物,水合物附着并聚集在一起形成巨大的“冰块”,可以造成输气管道堵塞,这对天然气的生产和集输造成严重的危害。通过分析天然气水合物的形成机理,和水合物形成冰堵造成的危害,并由水合物形成的三大条件入手,介绍了治理水合物的措施。运用PID调节器实现电伴热系统的自动控制,为集气站水合物治理的节能降耗提出具体举措,实现全年节约电能
期刊