基于集成学习的偏标记学习算法研究

来源 :桂林电子科技大学 | 被引量 : 1次 | 上传用户:xiaotao_8730
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的迅猛发展,运用机器学习的手段对大数据进行处理和分析已经成为一种公认有效的最佳方法。但是在各个领域中,呈现出数据的海量特征、数据标记的特异性,使得传统的机器学习方法无法对其进行数据处理。偏标记学习是处理数据标记特异性的弱监督学习框架产物,该框架与传统的弱监督学习框架不同之处在于示例的标记并非明确且单一,而是淹没于众多候选标记集中,这样的示例在现实中非常普遍,同时偏标记学习框架本质上也是对传统弱监督学习的一种扩展。偏标记学习是一种特殊的多类分类问题,任务是通过训练集得到一个多类分类器,而多类分类问题可以转换分解为构建多个二分类问题来解决,但是却极少考虑数据集中类别数目不均衡问题造成的分类器分类性能差、鲁棒性差;偏标记学习算法研究较少,很多现有机器学习算法通过改造后可运用于处理偏标记学习问题。基于此问题,本文主要做了一下几方面内容。1、本文提出一种KD树均衡训练集的集成偏标记学习方法,利用KD树的快速检索,使得划分的正负类样本数趋于均衡,再利用集成学习中的Stacking方法进行训练,对未知样本采用投票求和方式的方式进行预测。在公开UCI数据集和真实数据集上进行实验,实验表明提出的KD树均衡训练集的集成算法有较好的表现力。2、本文提出基于示例特征最大差异的ECOC算法,从ECOC框架的本质特性出发,寻找出特征差异最大的样本构成数据集,训练差异大的基分类器;ECOC的二值编码矩阵则是通过特征差异较大的样本候选标记或运算作为列编码来构造,最后对样本的预测通过各分类器的数据与编码矩阵进行比对从而实现预测。在公开UCI数据集和真实数据集上进行实验,实验表明提出的基于示例特征最大差异的ECOC算法有较好的表现力。
其他文献
振动试验是检测产品力学可靠性的必要手段,振动控制器作为整个振动试验的核心,对其进行状态监控是保证试验正常运行的必要手段。而目前的监控系统大多是需要人值守的现场监控
背景:胰腺癌恶性程度高,近半数的患者在手术切除后一年内复发,因为在胰腺癌中,迫切需要可以准确预测早期复发和确定复发风险的患者分层方法。本研究的目的是建立一种基于磁共
目前,数据中心网络部署了大量的服务器和网络设备,用以提供多种多样的网络功能服务(防火墙、内容缓存,广域网加速器等)和充分的网络连接。数据中心大多数据流为多个服务器功
目的:探讨穿山龙提取物薯蓣皂苷对痛性糖尿病周围神经病变小鼠坐骨神经中氧化应激相关指标表达的影响及其作用机制,为单味中药治疗痛性糖尿病周围神经病变奠定理论基础,为临
研究背景与目的:慢性移植物抗宿主病(c GVHD)是异基因造血干细胞移植术后发生的严重并发症。间充质干细胞(MSCs)具有免疫调节作用,可通过上调Treg细胞比例来改善c GVHD。研究
通过对某企业生产防弹玻璃的关键生产工艺步骤“合片抽真空”(该步骤在高压釜中实现)的研究,发现在此过程中,温度是影响防弹玻璃质量的关键因素。在“合片抽真空”工艺中采用
背景和目的随着腹腔镜胆囊切除术的普及,结扎夹已经成为固定胆囊管和胆囊动脉最常用的方法。因不可降解夹子长期存留在机体,大大增加了夹子发生脱落、移位的风险。因为镁合金
随着信息化时代的到来以及互联网技术的发展,全球数据呈爆炸性增长。分布式存储系统因其高可扩展性与廉价性的优点被广泛应用,并渐渐取代了传统的集中式存储。然而,分布式存储系统中的存储设备虽然价格低廉但不稳定性强,不可避免地会发生故障,需要频繁进行快速修复,这时就要求通过存储冗余数据来保证数据的可靠性与可用性。目前采用最多的冗余存储方式是复制和纠删码策略。复制策略需要存储原始文件副本,存储开销较大;纠删码
目的:验证缺血后适应(Ischemic post-conditioning,IPC)对大鼠脊髓缺血再灌注损伤(Spinal cord ischemia reperfusion injury,SCIRI)的保护作用并检测其对钙敏感受体(Calcium
近年来,Del.icio.us(美味书签)、Flicker(雅虎网络相册)和豆瓣网等国内外Web2.0网站都取得了良好的发展态势,其去中心化、开放和共享的特性,使得网络用户在互联网信息生成、