模式识别中分类器学习能力与泛化性的改进

来源 :重庆大学 | 被引量 : 0次 | 上传用户:annybill1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式识别是指对表征事物或现象的各种形式信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式识别技术可用于人脸识别、指纹识别、语音识别和文档分类等。统计模式识别中包含一个重要环节,即根据训练样本建立分类器。研究中发现,建立分类器时同时提高学习能力和泛化性存在一定的矛盾。统计学习理论中,Vapnik基于假设集合的VC维给出了学习器泛化性和学习能力间的关系。可以不严格地认为假设集合VC维越小,泛化性越强,学习能力越弱;而VC维越大,泛化性越弱,学习能力越强。由此不难发现,设计分类器时存在矛盾:学习能力和泛化性很难同时提高。实际工作中,我们通常是在两者间进行一定的平衡与折中。该论文提出一种新的分类方法旨在降低这种矛盾。分类器的建立可以被描述为这样一个过程,即从假设集合中搜索出一个最能分类训练数据的假设。统计学习理论等分析泛化性时是基于假设集合的偏置(VC维),而描述学习能力时同样是基于该偏置,这就是造成矛盾的一个原因。降低矛盾的一个办法就是基于不同的因素改变泛化性和学习能力。论文的基本思想为:学习能力基于假设集合,泛化能力基于搜索策略。让假设集合无偏以增强分类器对数据的学习能力,让搜索策略强偏以增强分类器的泛化能力。该论文主要完成了以下工作:①提出了一种搜索偏置:寻找最大边距分类面。并定义了一类特殊的数据分布pure distribution pair,以及基于该类分布的对偶点对。(注:论文中提出的最大边距分类面与支持向量机不同在于该分类面是与分布相关的曲面,而非平面)②介绍了在数据分布满足pure distribution pair时,寻找训练样本中近似对偶点对的方法,以及基于这些对偶点对建立分类面和进行分类的策略。③讨论了在数据分布不满足pure distribution pair时,消除“噪声”,变换数据使数据分布满足pure distribution pair的方法。④实现了该分类方法,并通过实验,一定程度上说明了该方法在解决“高非线性”数据分布时,较SVM更优,但在处理一类数据时也存在明显的缺陷。
其他文献
遗传算法是一种模仿生物自然进化过程的随机搜索和优化算法,其优势在于可以高效的处理传统搜索方法难以解决的非线性问题。遗传算法具有全局优化性和易操作性,由于其不受搜索空
复杂网络是复杂系统的表现形式,由于这样的网络其节点数量规模较大,而且节点与节点之间的联系较为复杂,所以这样的网络就被称为“复杂网络”。近年来,随着对复杂网络特性的分析不
现今,互联网在人类生活中发挥着重要的作用,人们通过网络寻找与各自生活、工作、学习密切相关的信息。然而,传统的搜索技术却存在着一些问题,如缺乏对语义的理解,以及不能进行知识
众所周知,人脸识别在执法、银行和海关的安全监控等方面具有广阔的应用前景。经过几十年的发展,现在已经出现了很多经典有效的人脸识别方法。但是在很多应用场景下,数据库对每个
入侵检测技术是信息安全领域的一项重要技术,对保障网络信息安全起着十分重要的作用。自入侵检测的概念提出以来,受到了研究人员的广泛关注,发展十分迅速,入侵检测理论得到了
随着大容量存储设备和数字化设备的出现和广泛使用,以及多媒体技术和网络技术的迅速普及,图像已经成为信息载体的主要形式之一,并且呈现指数级的增长趋势。图像检索技术被提出来
AVS作为我国自主创新的第二代信源编码标准,是我国自力更生的新一代视频标准,也是我国摆脱国外信源编码标准的一个里程碑。AVS视频部分于2006年3月1日起开始实施并正式成为国家
票据打印机是一种特殊的打印机,和喷墨、激光打印机都存在很大的差异,而票据打印机的这种差异是其它类型的打印机不能取代的,正是因为如此,票据打印机一直都有着自己的独特的市场
随着信息化程度不断提高,数据对企业的重要性愈发凸显,将数据备份到网络能有效保护数据。由于企业数据量的快速增长,海量数据的备份给存储系统和网络带宽带来了很大压力,也造成存
随着计算机多媒体技术的快速发展,图像、音频和视频等数字产品得以在网络上大量传播转载,由于其易于获得和易复制的特点使得盗版侵权问题日益严重,数字水印的出现为这一问题