融合非标记样本选择的集成学习研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:dddbj126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的高速发展,人们获取数据的能力大大增强,社会各行各业产生的大量数据信息都可以通过数据采集系统和计算机进行收集和保存。特别是近些年来,随着科技的日益进步,数据采集和存储技术的飞跃发展,数据的获取越来越容易,但是通常容易得到的是大量未标记的样本数据,而有标记的样本数据仍然比较困难或成本太大,因为对大量未标记的样本进行标记既费时又费力。在这种现实环境下,传统的监督学习模型不再实用,如何利用少量的标记样本以及大量的非标记样本进行学习则越来越引起研究人员的关注,为了利用现实世界中的大量非标记样本,关键是要提出新的能够充分利用非标记样本或少量人工标注样本来进行学习的模型。目前主流的半监督学习和主动学习策略提供了这样的模型,但是这些学习模型存在的问题还比较多,如:分类正确率不高,计算量大,训练时间太长等。因此,提高模型利用非标记样本的学习效能仍是该领域的研究热点和难点。为此,本文结合集成学习,对改进主动学习和半监督学习模型的进行了研究,主要工作如下:(1)对近年来国际上关于非标记样本选择方法及研究成果进行了总结,分析了主动学习策略和半监督学习策略存在的优缺点。(2)提出一种基于分歧度评价的融合主动学习和集成学习的高效能学习方法,该方法把训练分成两个阶段——训练前期和训练后期,基于样本分歧度和不同的训练阶段,采取不同的非标记样本选取方式,减少前期误判样本对学习精度的影响。为评价方法性能,在人工流数据和HEp-2细胞图像数据上进行了实验,实验结果表明:该方法相对于目前的Qboost方法,需要的训练样本数少且分类精度更高。(3)提出一种基于半监督学习策略的极限集成学习方法。该方法结合半监督学习所需标记样本数目少和集成学习在精度和鲁棒性方面的优势,采用极限学习机训练分类器,提高了分类器的分类精度,同时大大降低了训练所用的时间。为评价该方法的有效性,用同样的数据集进行测试,实验结果表明,此方法在精度上与(2)中提出的方法相当,但是训练时间大大少于包括(2)中方法在内的目前主流方法。
其他文献
电力系统的设计与运行中,首要任务就是保证系统的安全和稳定。然而,短路故障是各种层出不穷的电力事故中最为常见的故障,严重危害系统的安全、稳定、运行,可见预防和控制短路
随着城市建设的不断发展,道路交通流量也迅猛增加。如何有效疏导交通、充分利用交通资源、避免道路堵塞、减少交通事故,已成为交通管理中必须解决的一个问题。采用智能交通信
本文以微机械惯性器件为测量元件,开展微小型惯性测量系统的研究。MEMS惯性器件在体积和成本上的优点较为突出,但在分辨率和精度上存在着很大的不足。论文从实际需要出发,以M
“基于概念格的检索查询扩展系统”与已有的查询扩展方法不同,其主要特色是试图通过文本概念挖掘、文本间的概念关系、概念格构建算法的综合利用,从概念的角度为用户提供自动
自从80年代普度大学的Skelton等人提出方差约束控制理论以来,方差约束控制就引起了研究者的广泛关注,同时在实际应用中取得了巨大的成功。目前,大部分方差约束控制理论的研究
盲源分离(BSS)是在上世纪末发展起来的一类信号处理方法,在现代通信、语音信号处理、机械故障诊断、图像处理等方面有着非常大的应用价值。随着语音信号处理在语音识别、电话通
本文在不同种群的企业间合作的背景下,建立了企业合作策略选择的动力学模型,将有限理性捕鹿博弈模型引入企业合作领域。通过对模型的分析,试图为企业的这种合作行为提供理论参考
本文首先对粒子群算法的收敛性进行了系统地分析,针对粒子群算法的早熟现象,将自适应变异、混沌、模拟退火以及小生境等方法引入到粒子群算法中,构成了混合PSO算法。通过几个标准测试函数的仿真,表明了改进算法的收敛速度快、精度高;随后提出PSO-BP混合算法来对神经网络PID的权值进行优化,从而实现了对主汽温系统的动态PID控制。仿真结果表明,被控系统具有很好的抗干扰性能和较强的鲁棒性。最后提出了简化的减
本论文是结合具体的研发项目写成的。采用CAN现场总线技术作为本灯光控制系统的通讯工具。系统中还采用了计算机、控制和电路设计等多领域的较先进的技术,使系统具有较完备的
视觉是人类获取外界信息的最重要途径之一,双目立体视觉可以直接模仿人眼与人类视觉的立体感知过程,是计算机视觉研究的核心课题之一。近年来,随着微处理器件和集成电子技术飞速