主动学习算法中采样策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ysabby2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,文本挖掘、语音识别、生物信息发掘和视觉对象分类等应用领域面临的一个现实问题是:无标注样例数目众多,易于获得;标注样例数量稀少,难于获得。作为机器学习领域的重要研究方向之一,主动学习算法可以同时利用标注样例和无标注样例来构建高精度分类模型,因此,本文对主动学习算法中采样策略进行深入研究,并将所提出采样策略算法应用于视觉对象分类任务中。视觉对象的语义理解是计算机视觉领域的重要问题。网络技术的快速发展使得短时间内获取大量图像成为可能,但对这些无监督或弱监督图片中包含的视觉对象进行分类成为一个艰巨、富有挑战性的任务。越来越多的科研人员致力于发展有效的机器学习算法,在已标注图像集上建立模型,继而利用学习到的知识判断和划分视觉对象所属的类别。这一做法通常需要大量标注图像用于模型训练过程,而为这些图像添加精确的标注信息需要花费大量的人力、物力,因此,迫切需要充分利用标注者资源,减少人工标注代价,旨在以尽量低的标注代价建立较高精度的模型。为了更加有效地收集和利用图像的标注信息,主动学习算法提供了一种解决途径。算法随机选择少量图像并获取其标注信息,通过模型与标注者进行交互的形式,利用已收集标注图像中的语义信息和知识,选择部分最有助于模型训练的无标注图像提交标注者进行标注。主动学习算法的优势是通过让学习系统向标注者进行提问的方式达到减少标注者工作量的目的,这不仅充分利用了珍贵的标注者资源,而且更好的将人类知识迁移到学习系统中。因此,发掘高效的主动学习算法对视觉对象的分类与检索研究具有重要的理论价值和现实意义。目前,虽然部分主动学习算法已经用于减少对象分类与检索任务中的标注代价,并取得了良好的效果,但是,这些算法中往往存在一些理想化的假设条件,导致其不能很好地适用于噪声或者未标注图像数据较大条件下的学习任务。鉴于这一点,本文以主动学习算法作为研究对象,在已有采样策略的基础上,结合统计学理论,发掘噪声或未标注图像数据较大条件下有效的样例选择算法。目的是以尽量低的标注和时间代价获得较高精度的分类模型,并以此为基础,构造有效的主动学习算法模型应用于视觉对象分类与检索实践当中。主要的研究工作和创新点如下:(1)提出一种基于模型风险的加权样例选择算法针对主动学习算法中训练数据与测试数据具有相同分布这一理想化假设条件,提出一种基于模型风险的加权样例选择算法,旨在解决因分布差异导致的采样算法效果下降,以及在给定标注代价条件下分类模型训练效果不理想的问题。算法对每个样例设置权重,使用训练数据与无标记数据上模型风险的期望误差来估计样例对应权重值,并根据该值选择最有助于分类模型训练的样例。算法与其它同类方法进行了比较,实验结果证明分类模型的精度得到有效提高。(2)提出一种批量选择样例的训练集构造方法针对主动学习算法面临的因视觉对象数量多,但同类别对象数量稀少而造成的正反例数量不平衡这一实际问题,提出一种批量选择样例的训练集构造方法。目的是在相同标注代价条件下,克服大量反例对分类模型的不利影响,提高分类模型的精度。算法利用分类模型风险,通过最小化模型风险的方差来构造训练分布,并依据该分布选择样例,建立训练集。算法与其它同类方法进行了比较,实验结果证明,在模型分类精度相同时,算法需要的标注代价更少。(3)提出一种多标注者主动学习概率模型针对主动学习算法中单一标注者必须能够提供准确无误的样例标记这一理想化假设条件,提出一种标注噪声条件下多标注者主动学习概率模型,旨在减少标注者标记质量对主动学习算法的影响。模型通过选择准确度高的标注者提供标记和估计样例对应正确标记的方式达到同时减少标记代价和提高模型精度的目的。实验结果表明,与其它同类方法相比,所提出概率模型有效减少了标注噪声的影响,提高分类模型的性能。(4)提出一种基于Hash技术的主动学习样例选择算法针对未标注数据数量较大条件下主动学习算法选择样例时间开销大的实际问题,提出一种基于Hash技术的样例选择算法,旨在快速返回所选样例,减少主动学习分类模型所需时间。算法通过利用Hash技术选择分类模型权重,进而,获得无标注样例与分类界面间近似距离,并依此选择样例用于训练。算法与其它同类方法进行了比较,实验结果证明,所提出算法可以有效减少训练所消耗的时间。
其他文献
一.发展人力资源会计的重要性人力资源会计是采用会计方法和其他跨学科领域的方法,通过对人力资源的招募、录用培训、组织、开发、耗费、转让等组织和管理过程中所花费的成本
<正>游戏教学就是以各种各样的游戏的形式进行教学的活动,小学生可以在开心快乐的气氛中,自然而然地学到小学数学教材中需要学习的内容。"游戏教学法"是"游戏"和"教学"两个因
在教学中发现,师专学生不良学习习惯主要有:学习目标缺乏、学习计划缺乏、缺乏学习自觉性、学习方法机械、注意力不集中等,这些都直接影响了学生的学习效果。经过原因分析,提
斯德哥尔摩是个有故事的设计城市。我们来欣赏一下瑞典知名及新锐设计师们结合瑞典文化,提出的最独特风格的设计提案。
期刊
为研究突发事件谣言在微博上的传播机制,通过分析微博用户获取以及传播谣言的行为特征,考虑微博谣言获取的非常规渠道以及谣言传播的滞后性等特点,基于传染病动力学,构建了适
家庭储药状况调查分析赵天琪1冯慈影2王宝佳3(1贵阳医学院附院药剂科贵阳5500042贵州省劳动卫生职业病防治研究所3中国人民解放军第44医院药剂科)家庭有否储药、存药的种类与多少,既反映社会人
随着现在社会的不断发展,人们越来越重视我国国土资源的管理,尤其,现在经常把测绘和国土资源管理联系起来。因为在我国,国土资源的管理和领域的延伸,科学规范的管理体系都需
有这样一群人——他们属于社会上的中产阶级,懂得理性享受;稳重内敛而又不失活力;追求高品味而不盲目跟风;他们是社会上各个行业的中流砥柱,渴望事业成就同时也重视内心感受;