统计模式识别问题的基本理论

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:voidemort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]传统统计模式识别的方法都是在样本数目足够多的前提下进行研究的,只有在样本数趋向无穷大时其性能才有理论上的保证。而在多数实际应用中,样本数目通常是有限的,这时很多方法都难以取得理想的效果。统计学习理论是一种专门的小样本统计理论,为研究有限样本情况下的统计模式识别和更广泛的机器学习问题建立了一个较好的理论框架。
  中图分类号:TG333.7 文献标识码:A 文章编号:1009-914X(2016)21-0016-01
  1 统计模式识别问题简介
  统计模式识别问题可以看作是一个更广义的问题的特例,就是基于数据的机器学习问题。基于数据的机器学习是现代智能技术中十分重要的一个方面,主要研究如何从一些观测数据出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,因此这种机器学习在从现代科学、技术到社会、经济等各领域中都有着十分重要的应用。当我们把要研究的规律抽象成分类关系时,这种机器学习问题就是模式识别。
  统计是我们面对数据而又缺乏理论模型时最基本的分析手段,传统统计学所研究的是渐进理论,即当样本数目趋向于无穷大时的极限特性,统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率诸多结论,都具有这种渐近特性。但实际应用中,这种前提条件却往往得不到满足,当问题处在高维空间时尤其如此,这实际上是包括模式识别和神经网络等在内的现有机器学习理论和方法中的一个根本问题。
  V.Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩, 90年代以前并没有提出能够将其理论付诸实现的较好的方法。加之当时正处在其他学习方法飞速发展的时期,因此这些研究一直没有得到充分的重视。直到90年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系——统计学习理论(Statistical Learning Theory,簡称SLT)。同时,神经网络等较新兴的机器学习方法的研究则遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。
  为了解决有限样本的机器学习问题,在过去二十多年里,发展了很多新的统计学方法,其中V.Vapnike等发展了专门研究小样本统计估计和预测的统计学习理论以及结构风险最小化原则(Structural Risk Minimization,SRM)。
  统计学习理论就是研究小样本统计估计和预测的理论, 主要内容包括四个方面:
  1) 经验风险最小化原则下统计学习一致性的条件;
  2) 在这些条件下关于统计学习方法推广性的界的结论;
  3) 在这些界的基础上建立的小样本归纳推理准则;
  4) 实现新的准则的实际方法(算法)。
  其中, 最有指导性的理论结果是推广性的界,与此相关的一个核心概念是VC维。
  2 VC维
  模式识别方法中VC(Vapnik Chervonenk Dimension)维的直观定义是:对一个指示函数集, 如果存在h 个样本能够被函数集中的函数按所有可能的2h种形式分开, 则称函数集能够把h 个样本打散;函数集的VC维就是它能打散的最大样本数目h。若对任意数目的样本都有函数能将它们打散, 则函数集的VC维是无穷大。有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。
  VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)。 遗憾的是,目前尚没有通用的关于任意函数集VC维计算的理论,只对一些特殊的函数集知道其VC维。比如在n维实数空间中线性分类器和线性实函数的VC维是n+1, 而上一节例子中的VC维则为无穷大。对于一些比较复杂的学习机器(如神经网络),其VC维除了与函数集(神经网结构)有关外, 还受学习算法等的影响,其确定更加困难。对于给定的学习函数集, 如何(用理论或实验的方法)计算其VC维是当前统计学习理论中有待研究的一个问题。
  3 推广性的界
  统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界。关于两类分类问题,结论是:对指示函数集中的所有函数(包括使经验风险最小的函数),经验风险和真实风险之间以至少1-η的概率满足如下关系:
  上式右端第一项反映训练样本的拟合程度;第二项称为Vapnik Chervonenkis置信范围(又称VC置信范围),h是函数集的VC维。
  式(1)表明,在有限训练样本下,学习机器的VC维越高(复杂性越高) 则置信范围越大, 导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。
  4 结构风险最小化(SRM)原则
  在传统方法中,选择学习模型和算法的过程就是调整置信范围的过程,如果模型比较适合现有的的训练样本(相当于 n/h 值适当),则可以取得比较好的效果。但因为缺乏理论指导,这种选择只能依赖先验知识和经验,造成了如神经网络等方法对使用者“技巧”的过分依赖。
  当 n/h 较大时,式(1)右边的第二部分就较小,真实风险就接近经验风险的取值。如果n/h 较小,那么一个小的经验风险值并不能保证小的真实风险值。在这种情况下,要最小化真实风险值,就必须对不等式(1)右边的两项同时最小化。但是需要注意,不等式(1)右边的第一项取决于函数集中的一个特定函数,而第二项取决于整个函数集的VC维。因此要对风险的界,即式(1)的右边的两项同时最小化,我们必须使VC维成为一个可以控制的变量。
  统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照 VC 维的大小(亦即Φ的大小)排列,在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得真实风险的最小,如图1所示。
  于是有两个思路:一是在每个子集中求最小经验风险, 然后选择使最小经验风险和置信范围之和最小的子集。这种方法比较费时, 当子集数目很大甚至是无穷时不可行。于是有第二种思路, 即设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择适当的子集使置信范围最小,这个子集中使经验风险最小的函数就是最优函数。支持向量机就是这种思想的具体实现。
  作者简介
  董妍(1974-),女,吉林省怀德市人,硕士研究生,讲师,毕业院校:长春理工大学,研究方向:电子技术。
其他文献
[摘 要]介绍循环水系统中仪表的性能,通过DCS系统实时监控记录循环水使用过程中产生的结垢、腐蚀及水质的各项参数,同时根据工艺要求对循环水实现自动取样分析和自动加药处理。  [关键词]DCS;仪表;自动化;循环水;自动加药  中图分类号:TG333.2 文献标识码:A 文章编号:1009-914X(2016)20-0397-01  概述:在现代化工行业中,循环水系统的正常运行对主工艺生产和设备维护
期刊
[摘 要]根据沙河渡槽工程基础地大部分为重粉质壤土,地基承载力极低这一地层地质情况,通过对强夯施工技术进行研究,并在沙河渡槽软弱地基上开展现场工艺试验,对强夯施工技术对沙河渡槽工程软弱基础处理效果进行了研究.通过研究,取得满足本工程设计要求的强夯施工工艺和参数。  [关键词]重粉质壤土;软弱基础;强夯;施工工艺  中图分类号:TU472.31 文献标识码:A 文章编号:1009-914X(2016
期刊
[摘 要]农业自古到今作为国家的重要产业,是人们生存发展的重要条件。为了使农业生产发展得到有效保障,农村小型水利工程建设必不可少。因此,本文对农村小型水利工程的现状进行了分析,并在此基础上谈点农村小型水利工程建设的改革思路。  [关键词]小型农村;水利;改革  中图分类号:F323.213 文献标识码:A 文章编号:1009-914X(2016)20-0377-01  一、 农村小型水利工程现状 
期刊
[摘 要]能源作为社会稳定可持续性建设的重要基础。伴随着全球气候变暖等各种气候问题的产生,积极开发再生能源已经成为各国建设中的首要任务。生物质能源与传统化石能源之间存在一定差异,但是与其他能源还不同,具有二者的优势,已经成为主要的再生能源。生物质能源还拥有广泛的储存面积与分布范围,碳含量适中,能够有效降低污染物排放,进行低碳经济建设。  [关键词]生物质能源;未来环境  中图分类号:F326.2;
期刊
[摘 要]配电网处于电力系统的末端,因其电压等级相对较低,以35KV和10KV电压等级占多数,熟练掌握不同的电压异常特点和处理方法,,对保证电能质量,提高用户供电可靠性都有十分重要的意义。  [关键词]配电网;电压异常;对策  中图分类号:TM714.2 文献标识码:A 文章编号:1009-914X(2016)21-0009-01  1 配电网电压问题现状  变压器的中性点接地方式多位不接地或经消
期刊
[摘 要]随着网络时代的到来,数字出版日新月异,数字技术对出版业已经产生了极大的影响,给出版业的巨大变革迫在眉睫。本文试图从数字出版对传统出版的影响,来探讨和思考编辑人员如何应对。  [关键词]数字出版;编辑;启发  中图分类号:G239.2 文献标识码:A 文章编号:1009-914X(2016)20-0395-02  数字出版是指利用数字技术进行内容编辑加工,并通过网络传播数字内容产品的一种新
期刊
[摘 要]本文通过巴基斯坦某一电厂在检修后的并网试验中发生了发电机非同期并网的动作情况,分析了引起发电机非同期并网的原因,探讨了发电机同期系统中应注意的问题,以及调试工作过程的调试方法及内容浅析。  [关键词]发电机、自动装置、同期  中图分类号:TM711 文献标识码:A 文章编号:1009-914X(2016)21-0001-01  1.概述  巴基斯坦某一电厂采用“二拖一”联合循环模式,其中
期刊
[摘 要]在硫化机控制系统中,设置温度上限和下限报警,避免皮带在胶接中因温度差异过大造成胶接失败,提高劳动效率。  [关键词]皮带;胶接;温度;报警  中图分类号:TD528.1;TG49 文献标识码:A 文章编号:1009-914X(2016)21-0011-01  0 概述  皮带输送机是厂矿企业必不可少的输送设备,具有成本低、能连续运转、输送量大、自动化程度高、控制方便等优点,具有不可替代的
期刊
[摘 要]绿色施工是我国工程发展的大方向,是施工企业可持续发展的必由之路。本文阐述了绿色施工的理念及其重要意义,并提出了一些绿色施工的措施。  [关键词]建筑工程;绿色施工;措施  中图分类号:TV523 文献标识码:A 文章编号:1009-914X(2016)20-0394-01  绿色施工,将是施工企业在未来发展中突围环保困境的一大法宝。实施绿色施工,不仅是施工企业实施可持续发展的重要手段和关
期刊
[摘 要]为了保证电气一次设备和电气二次设备达到同步运行状态,促进电力系统的稳定运行,加大电气二次设备的状态检修工作力度成为了必然选择。简要探讨了与电气二次设备状态检修相关的内容,分析在进行电气二次设备状态检修中使用的方法,研究电气二次设备状态检修遇到的几种主要问题。  [关键词]电气;二次设备;状态检修  中图分类号:TM762.14 文献标识码:A 文章编号:1009-914X(2016)21
期刊