基于分布信息的多示例学习方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jianjie12321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,受限于样本标注成本,弱监督学习已经成为目前相关领域的研究热点。作为一种典型的弱监督范式,多示例学习受到了广泛关注。多示例学习中引入了“包”的概念,一个包被定义为一个含有若干示例的集合,每个包将有一个对应的标签。如果一个包内示例全为负示例,该包即为负包。反之即为正包。考虑到数据分布信息的重要性,如何在多示例学习中充分考虑分布信息,解决现有多示例学习分布信息利用不充分的问题,具有重要的研究价值和意义。本论文从间隔分布信息和单侧数据分布信息两种典型场景出发,提出了两种不同的多示例学习方法,主要内容和工作如下:(1)基于间隔分布信息的多示例学习方法:间隔分布信息主要包含间隔均值与间隔方差,针对现有多示例学习方法并未充分利用数据间隔分布信息这一问题,本文提出了一种通过优化代表性示例的间距分布信息的学习方法。通过限制代表性示例的间距差异性使得分类模型更加符合数据分布,提高了模型的分类性能和泛化能力。最后在多组实验上的结果验证了这一方法的有效性。(2)基于单侧数据分布信息的多示例学习方法:多示例学习中,与正包被错误标记为负包相比,负包更容易被误标为正包,从而导致正类数据信息发生改变。本文称此种情形为单侧数据分布信息。针对该新场景下现有多示例学习方法性能不足的问题,本文提出了一种基于双重稀疏加权的多示例学习方法。通过分别对包和示例层面稀疏加权,同时完成关键示例筛选和正确的正包选择,降低标签噪声对模型分类性能的影响,在不同噪声水平下均表现出较好的性能。最后在不同噪声比例下的多组实验结果验证了该方法的有效性。
其他文献
在现代通信系统中,速率自适应技术和信道编码技术是提高无线通信传输有效性与可靠性的重要手段。速率兼容调制(rate compatible modulation,RCM)是一种新颖的速率自适应技术。RCM可以不需要信道状态信息的反馈,就能主动匹配信道条件的变化,实现平滑的速率逼近。Polar码是基于信道极化原理提出的一种新型信道编码,已被严格证明可逼近信道容量,且具有较低的编译码复杂度和固定的编译码结
学位
我国航天卫星事业经过几十年的发展,在导航、通信、侦察、遥感等各个专业领域都取得了很大的突破和发展,但在天基手段的整体应用方面还存在不足。应急搜救作为一个重要的应用领域,可以有效整合现有的天基信息资源,率先形成全球应急搜救服务能力,为推进“一带一路”建设提供重要助力。与地面应急搜救相比,天基搜救具有更广的覆盖范围,但也带来了通信干扰问题和多用户接入问题,而这两个问题与搜救通信的可靠性密切相关。针对以
学位
每年因食源性致病菌污染导致的食物中毒病例在全球范围内屡见不鲜,对人类生命健康和社会财产安全造成了严重危害。高毒性的大肠杆菌O157:H7(E.coli O157:H7)更是其中的关键代表,因此,建立一种快捷、准确的细菌识别技术对E.coli O157:H7的早期有效监测至关重要。E.coli O157:H7的常规检测方法在基层推广和应用上存在一定的局限性,传统的微生物学检测方法虽然准确,但是时间成
学位
FT-MX DSP是由国防科技大学计算机学院研发的,具有自主知识产权的高性能处理器。该DSP由于采用了VLIW体系结构,并具备支持多核和SIMD指令扩展等特点,故十分适用于并行处理、集群运算、AI云端计算等计算场景。本文的主要工作是在LLVM系统上设计和实现了FT-MX编译器,并对该编译器进行了优化。本文的主要内容有:I)对比和分析了Aho Ullman和Davidson Fraser编译器模型:
学位
可信度量和可信执行控制是验证文件完整性、保证程序可信运行的关键技术,也是可信计算的支撑性技术。已有可信计算技术主要通过增加可信计算硬件实现完整性保护,存在硬件部署实施复杂、度量性能受限的问题。同时,现有的可信计算机制一般与内核处于同一特权级,一旦内核被攻破,可信度量和执行控制模块自身的安全性也无法得到保证,存在被篡改的风险。针对以上问题,本文试图通过系统软硬件协同设计,基于飞腾处理器的内置密码算法
学位
蝶翼式微陀螺是一种基于哥氏效应的MEMS振动陀螺,具有体积小、功耗低、易于批量化生产等优点,具有很好的发展潜力。经过多年发展,蝶翼式微陀螺的性能不断提升,实现了从实验室到工业应用的跨越。随着市场对精度、体积要求的不断提高,需要深入研究蝶翼式微陀螺的设计、加工和封装技术。本文针对上述情况,以基于TGV的蝶翼式微陀螺为研究对象,优化设计蝶翼式微陀螺的敏感结构和与之配套的TGV衬底,并实现基于TGV衬底
学位
猕猴桃因具有较高的营养价值而备受消费者青睐,但猕猴桃采后容易发生后熟软化和微生物侵染引起的腐烂现象,导致果实品质降低,货架期缩短。为探究新型物理保鲜方法,以徐香和海沃德猕猴桃为原料,经不同剂量电子束辐照处理后低温贮藏,通过比较贮藏期间果实品质与生理生化指标、细胞结构变化和对果实冷害的抑制效果,筛选出猕猴桃采后贮藏的适宜辐照剂量,探究电子束辐照对猕猴桃的保鲜效果,为猕猴桃采后贮藏提供理论指导与技术支
学位
医药卫材的采购与销售是医院经济活动的重要组成部分,也是医院经济问题的多发区域。尽管大部分的药品单价不高,但日积月累产生的数额也不容小觑。因此,药品审计是医院经济管理的重要环节和审计工作的重心。目前用于审计疑点预测的大数据技术,大多数是基于聚类算法的疑点检测和少数是基于神经网络算法的审计预警而且是单一模型,这存在一定的局限性和准确率不高、稳定性不高等问题。基于这一背景,本论文提出了基于随机森林RF与
学位
随着人们对位置服务需求与日俱增,全球定位系统(GPS)已经无法满足在室内场所进行精准定位的需求。WLAN热点部署具有灵活、高效和随处等特点,成为室内定位的重要辅助手段。在诸多的WLAN定位方法中,基于信号强度的位置指纹定位法以简便的实操性、较高的精准性,成为室内定位的重要方法。论文提出一种基于WLAN热点效能分配的位置指纹定位法。该算法以位置指纹定位法为基础,在动态比对定位阶段,采用K近邻算法与变
学位
雷达目标识别是现代战争致胜的关键所在,发挥着难以取代的关键作用,然而战场条件复杂多变、识别目标种类繁多、雷达数据难以收集,极大增加了目标识别的难度。随着近年来机器学习的兴起,越来越多的基于神经网络的方法被应用到了雷达目标识别中,带来了多方面性能的改进。然而,现有的基于神经网络的雷达目标识别方法,通常依赖人为预设网络参数,并输入大量数据训练网络,才能取得较好效果,这使得现有方法难以满足实际场景的识别
学位