【摘 要】
:
局部泛化误差模型是一种评估分类器泛化能力的新型误差模型,以往关于该误差模型的主要研究都集中在分类器的结构选择和特征选择上,本文是局部泛化误差模型在样本选择领域的初
论文部分内容阅读
局部泛化误差模型是一种评估分类器泛化能力的新型误差模型,以往关于该误差模型的主要研究都集中在分类器的结构选择和特征选择上,本文是局部泛化误差模型在样本选择领域的初步尝试,在此基础上提出了基于局部泛化误差模型的协同学习算法,并将其应用于基于内容图像检索中。在基于内容的图像检索中,已标注的训练样本往往比较有限,而大量存在的是未标注的样本,如何利用这些未标注的样本提高图像检索的精度,是近年来的研究热点。与完全依赖训练集的全监督学习方法不同,半监督学习方法可以有效地利用未标注样本。其中,协同学习通过两个条件独立又具有充分分类能力的特征子集构造出两个不同的分类器,训练好的每个分类器通过挑选出信任度最高的未标注样本并赋予其最可靠的类别标识,添加到另一个分类器的训练集合中。反复执行以上操作直到结果满意为止。通过这种方法,可以有效地扩充训练集合,弥补训练样本不足的问题。在协同学习中,样本的选择至关重要,以往的研究都是以样本的后验概率(或近似)作为信任度的评估标准。本文提出了基于局部泛化误差的样本选择策略,以样本的局部泛化误差值作为信任度评估标准,在协同学习过程中选取出具有较小泛化误差值的未标注样本给另一分类器。本文分别用图像的颜色和纹理特征构造两个不同的径向基函数神经网络,结合协同学习思想实现基于内容的图像检索,通过大量实验表明基于局部泛化误差的样本选择方法比传统的信任度评估标准选择出的样本更加准确,检索精度得到了很大提高。图像检索中为有效减少用户相关反馈的次数,本文采用了基于局部泛化误差的主动学习方法,反馈一些具有较大局部泛化误差值的不确定信息样本让用户进行标注。实验表明,这种方法比随机反馈的方法更加有效。
其他文献
本文针对K-means算法容易出现局部最优的缺点,引入了一种改进的种群分类蚁群算法ICACA(Improved Character-base Ant Colony Algorithm)对其进行优化。蚁群算法采用了正反馈
将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英
离群数据挖掘就是从大量复杂的数据集中发现存在于小部分异常数据中的新颖的、与常规数据模式显著不同的新的数据模式。从数据挖掘的角度来看,在一些应用中,稀有事件往往比常
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自
时空序列是指空间上有相关关系的多个时间序列的集合,实际应用中存在大量的时空序列如:交通流量数据、环境监测数据等。有效地分析时空序列间复杂的空间、时间关系,并在此基础之
随着“后基因组时代”的到来,蛋白质分子对接成为蛋白质组学主要的研究方向。蛋白质分子对接是两个或多个蛋白质分子通过几何匹配和能量匹配相互识别的过程,要求两个分子要充
Petri网的进程是对系统行为描述和分析的有力工具,它可以很清楚地反映出网系统运行中变迁之间的顺序、并发、同步等现象。然而,一个进程只能反映Petri网的一种可能运行情况。
工作流是一类能够完全或者部分自动执行的过程,它根据一系列预先定义的过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。工作流系统的大规模应用体现了当
本课题来源于海信研发中心数字多媒体技术国家重点实验室“数字电视系统软件及通用模块软件开发”项目,项目目标是为该企业数字电视机顶盒应用开发提供一个高度可移植的中间
浩如烟海的互联网信息推动了搜索引擎的普及和应用,同时也促进了搜索引擎技术的蓬勃发展。当今搜索引擎的各项技术日趋成熟,学术界也逐渐将目光从搜索引擎技术本身转移到搜索