基于标签噪声过滤的自适应采样算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:PLF119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今机器学习已经广泛应用于生产生活等各个方面,数据作为机器学习的原始驱动力,如何妥善筛选和处理数据正在成为学术和工业研究的热门方向。为了提升数据质量,即提升数据在分类中的效果和效率,学者们提出了许多不同功效的数据处理方法,如:不平衡采样,噪声过滤采样,大规模数据的采样等。然而,不平衡采样,噪声过滤采样,大规模数据采样往往是相互独立的采样算法,现实场景中的数据通常非常复杂,数据通常需要经过多种采样算法处理或者过滤。但是多个算法对同一数据的重复处理也容易造成其它算法获取的信息不够完整,影响数据处理和采样环节的整体效果,因此本文提出一种基于完全随机森林的通用采样方法。该方法可以在数据采样的同时,缓解数据不平衡以及处理噪声数据。针对上述算法,本文进一步提出了自适应学习的参数搜索方法。最后实现了一个自适应数据采样系统,该系统集成并完善了这两种算法。本文的主要工作如下:1.研究了完全随机森林算法,提出了压缩样本数量的多功能采样算法。通过定义节点标签的概念,采用投票法的结果发现噪声点和冗余点的特性,同时总结这两类点的规律,最后将标签噪声点和冗余点进行过滤,实现集成标签噪声过滤,以此缓解数据不平衡。2.研究了投票法和提升学习法,提出了结合提升学习的自适应学习算法。为了使完全随机空间采样法完全无参,该算法在建树的过程中结合提升推进思想,自适应确定森林棵数,定义算法的稳定状态,从而实现了完全随机空间采样法的自动化。不仅提升了算法速率,也提高了算法稳定性。3.实现了一个自适应集成数据采样系统。该系统结合自适应完全随机空间采样算法,能够对输入系统的数据进行标签过滤,不平衡处理以及样本压缩。
其他文献
随着“一带一路”的建设,我国与欧洲及沿线国家的经贸往来发展迅速,对于物流的需求旺盛,贸易通道和贸易方式也在不断地丰富和完善,为中欧班列发展创造了良好的发展机遇,也对中欧班列的发展提出了更高的要求。但是也应该看到,中欧班列的发展仍处于初期,各地区都存在恶性竞争、货源同质、线路重复、地方保护主义严重等问题,这些问题限制了中欧班列运行效率,阻碍了中国“一带一路”建设的进程。因此,在中欧班列发展中实现各区
汽车智能辅助驾驶技术是改善现有交通问题的关键技术之一,环境感知模块负责为辅助驾驶系统的提供道路信息。车道线检测技术是感知道路车道线信息的主要手段,对道路识别、路径规划及规范驾驶等关键技术具有重要意义。随着汽车智能辅助驾驶技术研究的深入以及逐渐产品化,该技术与其他前沿技术的结合应用也成为当下汽车产业技术研究的热点。车道线检测的要求也随之变化,对车道线检测数量、贴合程度以及鲁棒性有了更高的要求。本文围
在信息时代,虽然人们可以共享资源开拓视野,但是海量信息也会让用户花费更多时间代价寻找满足自己需求的信息。正是为了解决用户选择困难的问题,个性化推荐才受到了广泛的关注。个性化推荐通过分析用户行为数据,标记用户的个性化偏好,向用户推送其可能感兴趣的信息。目前,个性化推荐面临的主要问题是数据稀疏,通过用户和项目额外的辅助信息来探索用户的兴趣模式是有效的解决方法之一。近年来,图卷积网络在图数据方面表现出强
目前国内现有的有毒有害气体浓度检测产品的体积与功耗方面有着一定的缺陷,因此研究、设计出低功耗、体积小以及高精度的有毒有害气体浓度检测系统得到了工业界和学术界的广泛关注。本文设计以现有产品以及技术为基础进行对恶劣环境的适应性改善与降低整机功耗,进一步保障人类的身体健康以及生命安全。本文首先回顾气体传感器的现状和发展情况,介绍国内外在有毒有害气体检测技术当中的相关研究,描述其未来的发展方向。在此基础上
在未来网络规划中,越来越多的通信场景发生在室内,通信的地位愈发重要。然而室内覆盖不均、系统容量不足一直是阻碍其发展的难题,室内分布系统是针对这些难题提出的解决方案之一。在部署室内分布系统时,采用同频组网方式可解决频率资源紧缺的问题,但是会带来同频干扰,从而影响系统整体性能,导致网络覆盖降低。因此,在室内分布系统的建设及部署过程中,考虑干扰协调问题具有实际意义。论文主要工作如下:1.本文针对Lamp
随着无线通信系统业务种类和数据量的大幅增加,当前社会对系统容量极限及处理速度的需求在日益增长。多输入多输出(Multiple Input Multiple Output,MIMO)技术可以在不增加系统带宽和发射功率的前提下达到更高的信道容量及速率,而MIMO无线通信系统的信道估计及信号检测较单天线系统却有着不小的实现难度,因此针对该方面的探讨仍是无线通信领域的热点。此外,目前深度学习在通信系统的网
高压电气设备绝缘故障发生时,经常伴随局部放电(Partial Discharge,PD)现象,如果不加以预防,严重时会导致短路等现象发生,危害电力设备的安全运行,造成巨大的安全隐患。为了提前发现高压电气设备中绝缘劣化现象,需要对绝缘设备进行监测。特高频(Ultra High Frequency,UHF)传感器具有接收范围广、抗干扰能力强和非接触式测量等优点,被广泛应用于监测现场。监测现场存在各种噪
随着通信技术的不断发展,移动设备的普及使得人们对位置服务有了较高的需求,如大型购物中心、商场、医院门诊等。室外定位技术最早的是全球导航定位系统(Global Positioning System,GPS),发展至今技术已十分成熟,但建筑物会阻碍GPS数据信号的传输,使其无法在室内定位技术中使用。因此,各个领域的迫切需求促使室内定位技术获得了快速发展的机会,然而因为室内环境的复杂性和多样性,室内定位
图像是当今社会中一种重要的信息传播媒介,准确高效的文字检测方法有助于人们分析和理解图像中的语义信息。自然场景下的图像文本检测方法主要分为传统的自然场景文本检测方法和基于深度学习的自然场景文本检测方法。传统的自然场景文本检测算法因为存在检测效率低和准确率低的问题正逐渐被基于深度学习的自然场景文本检测方法所替代。但是基于深度学习的模型通常具有较深的网络结构,各层网络在提取图像特征的过程中存在丢失重要特
网络编码技术允许中间节点对转发的数据包进行编码组合后转发,打破了传统“存储-转发”的传输模式,有效提升了网络传输有效性和网络整体吞吐量。传统路由协议中节点只能被动获取编码机会,探究网络编码技术与路由技术的结合使得节点获得编码感知能力,主动探寻编码机会。其中,编码感知路由协议的研究成为焦点,现有研究中未考虑实际参与编码数据包的特征,片面追求编码机会的增加,制约编码增益提升的同时,导致网络中部分节点负