标签噪声自适应过滤学习方法研究及应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xu9865
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,标签噪声的存在会增加模型的建模复杂度,降低模型的分类性能。标签噪声处理方法主要分为以下两种:一是研究一些通用的算法消除标签噪声对模型的不良影响,其旨在容纳噪声;二是对模型的输入流进行处理,即对样本中标记错误的数据进行纠正或者清除。本文基于模型预测对样本数据进行预处理的方式,开展基于标签噪声的分类器性能优化研究,提出了结合三支决策自适应噪声过滤方法,并将该算法集成到一个标签噪声自适应过滤系统上。本文的主要工作如下:1.为了解决噪声处理算法中参数固定设置问题,基于自适应学习思想,提出了一种自适应学习参数的噪声过滤方法,称为标签噪声自适应过滤学习。该方法不依赖于噪声估计或其他测量,不需要优化任何参数,基于k-means易实现、参数少且速度快等优点,本文通过对样本损失值迭代地使用k-means将噪声样本从正常样本中识别出来。此外,该方法可以结合不同损失函数或分类器,具有较好的通用性。2.针对二支决策在信息不足时误判数据样本归属的情况,基于显著噪声特性与三支决策思想,提出一种噪声划分方法。该方法利用类簇标签匹配对部分数据样本点划分归属,剩余样本点根据投票数量划分类簇,生成三支决策聚类结果,并对边界域数据采用延迟决策,提高模型的准确率与稳定性。3.结合本文三支决策自适应噪声过滤方法,设计并实现了一个标签噪声自适应过滤系统,该系统无需任何参数优化即可过滤用户上传的数据。系统简洁且易于使用,能够很方便地应用于实际工作中。本文提出了标签噪声自适应过滤学习和基于三支决策噪声划分方法,并将两个方法进行有效融合。实验结果表明,本文的算法在提升模型性能上取得了良好效果。
其他文献
随着科技的发展,视频的应用越来越广泛,而近两年由于疫情的原因,视频会议也变得非常流行,为远程办公提供了良好的环境。但由于视频中的数据量太大,对网络传输和存储量的要求都是极大的考验,因此必须对其进行压缩编码。网络的类型多种多样,不同类型的网络有着不同的带宽。并且即使是同一个网络,用户数量的不同也会引起网络带宽的波动。视频流必须适应这种变化,才能让用户有良好的体验。质量可伸缩视频编码(quality
学位
互联网技术的飞速发展和社交媒体的普及,为人们参与各类信息讨论提供了便利的平台。人们可以有选择地实时获取各类信息,立即了解当前热点问题。在科学技术给人们分享信息提供方便的同时,也为谣言的传播增加了机会。如今谣言的爆发不受时间和地域的限制,与传统谣言相比,网络谣言的传播速度更加快速,范围更加广泛,危害性也更高。因此如何挖掘出在线社交网络中谣言的传播规律,预测谣言话题下的用户行为,感知谣言发展态势,是建
学位
多模态医学图像融合包括组合两个或多个相同或不同模态的图像,旨在改善图像内容并保留信息。医学成像技术的快速发展使得科研人员关注到融合不同模态的医学图像来辅助专家进行诊断和治疗的重要性。这项技术不仅可以克服单一模态图像的局限性,还可以降低医学影像的存储成本。此外,融合结果有助于后续其他任务,如分割、分类和检测等。虽然当前已经有很多基于传统算法和深度学习的医学图像融合算法被提出,但是融合结果颜色失真,边
学位
为了有效评价低水平荧光纸张D65荧光亮度检测结果的精密度,给同行企业提供参考数据或参考方法,本研究基于GB/T7974-2013中等水平荧光纸张D65荧光亮度检测结果精密度要求的前提下,对多个低水平荧光纸张及印刷成品进行平衡均匀水平实验[1]并对实验的检测结果进行统计分析以求建立一种低水平荧光纸张D65荧光亮度检测结果精密度的评价方法。结果表明:受各样本测试水平差异影响D65荧光亮度数据结果的变异
期刊
为解决在城市中心区域复杂环境下施工常出现超深基坑施工监测指标超出预警范围的问题,本文以某工程项目为例,从地下连续墙施工、止水帷幕施工、超深基坑开挖施工、钢管支撑施工等方面详细介绍超深基坑施工技术。通过实例证明,新技术应用可以确保超深基坑施工监测指标始终控制在预警范围以内,具备更高的施工安全性。
期刊
互联网的迅猛发展催生了各种社交网络媒体,如脸书、推特、微博和微信等。这些社交媒体平台给人们提供大量信息的同时也增加了获取有效信息的成本。其中,推特作为最大的社交网络媒体,具有数以亿计的用户量,平台上的信息也是日益增多。因此,对海量推特信息进行压缩,以获取其摘要具有重要意义。近年来推特摘要研究得到了广泛关注,但在言论规范性和主题多样性这两方面仍存在不足。针对上述问题,本文具体研究内容如下:1.针对言
学位
信息抽取任务指把半结构化、非结构化数据转换为结构化数据,事件抽取任务则是从文本中匹配事件描述信息,包含事件类型和对应事件元素,事件抽取可自动处理海量文本,从而提升工作效率。基于句子级别的英文事件抽取技术较为成熟,而基于中文文本的研究工作才刚起步。中文事件抽取具有一定难度,中文事件结构复杂且篇幅长,同一事件中的事件元素多数分布在文档中的多个句子中,另外英文以空格作为词语分隔符,而中文不具有该特性,因
学位
公路作为交通运输业的基础在国家经济发展历程中占据着重要地位。由于超载、使用保养不当、长期雨水的腐蚀等问题,有些路段出现开裂、剥落等不同程度的损害。路面裂缝通常被用来衡量道路质量的好坏,如果能及时发现初期的裂缝并对其进行修复和跟踪,那么人力、物力和财力的消耗将会极大减少。因此,路面裂缝检测成为当前的重要研究课题,及时的检测修复路面裂缝也是道路养护工作的重要内容。传统基于数字图像处理的裂缝检测方法对于
学位
近年来,随着信息网络时代的到来,视频已经成为用户获取知识信息的主要渠道。然而,由于视频数据量非常大,为了对视频数据进行有效地存储和传递,必须对其进行有效的压缩和编码,因此提出了高效视频编码标准(High Efficiency Video Coding,HEVC)。由于网络种类的多样性,即使在相同的网络带宽下视频信号也可能发生波动,这就要求视频流必须适应不同的带宽要求。而基于HEVC提出的质量可伸缩
学位
随着互联网的快速发展,视频用户的不断增长,影视信息已经成为人们生活中不可缺少的信息媒介之一。如何通过推荐算法帮助用户挑选出其感兴趣的电影,受到了广泛的关注。当前,图神经网络被发现在图数据学习方面具有强大的功能,被应用于推荐研究工作。许多研究者将用户或项目的辅助信息集成到大规模网络建模中,形成包含各种信息的异质图网络。大多数算法都是基于元路径获取相似用户,并通过网络表征学习提取有效信息。但仍然存在如
学位