二维欧氏空间内线性凸区域概念的PAC学习算法

来源 :贵州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:xyf669842466
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:实例空间X的一个子集规定一个概念,表现为一个函数c:X→{0,1}。给定X上一个分布D,可能近似正确(PAC)学习算法的目的是基于独立同分布样本S,由算法产生一个近似函数hS,以高概率保证它与目标函数c的误差不超过给定误差值。如果存在这样的算法其样本复杂性及时间复杂性受多项式界,则认为目标概念可以有效PAC学习。本文讨论二维欧氏空间上有界线性凸区域定义的目标概念的学习理论和方法,证明了有界线性凸区域定义的目标概念是有效PAC可学习的,其方法可以推广到n维欧氏空间上由超平面界定的有界凸区域对应的目标概念学习。
  关键词:
  二维欧氏空间;线性凸区域;概念学习;PAC算法
  中图分类号:TP301.6
  文献标识码: A
  在机器学习中,对给定实例进行分类是一种基本处理方法,其中二分类是重要而基础的分类问题。当实例空间较大或复杂时,精准分类变得复杂或困难,依采样进行近似分类显得有效和实用。可能近似正确(Probably Approximately Correct, PAC)算法提供了一种学习架构,其原理来源于依概率收敛假设。假定实例空间依赖于某个分布,通过独立取样得到容量为m的样本S,如果存在一个算法A能够产生一个输出函数hS,当m趋于无穷大时,hS依概率收敛于目标函数c是PAC可学习的。形式上,对于任意给的误差参数0<ε<1以及可靠性参数0<δ<1,存在一个正整数M,当样本容量m超过M时,算法输出一个近似分类函数hS,至少以概率为(1-δ)确保hS与目标分类函数c的误差不超过ε。如果存在这样的算法,其样本复杂性M和算法的时间复杂性受1/ε,1/δ的多项式界,则称目标概念c是可以有效PAC学习的。PAC学习中,往往加强到对目标概念集C、任意分布D下寻找有效PAC学习算法。如果这样的算法存在,则称概念集C是可以有效PAC学习的。
  在本文中,假定实例空间X为二维欧氏空间R2,R2的一个子集的特征函数c:R2→{0,1}规定一个概念。文章重点讨论有界线性凸区域规定的概念的PAC学习理论和方法,线性凸区域是由一组线性不等式界定的区域{(x,y):aix+biy≤ci(i=1,2,……,k)},有界性指区域内的点被一个有界矩形(或圆)包含,目标概念c定义为:c(x,y)=1aix+biy≤ci(i=1,2,……,k)成立。 本文给出了这类概念学习的理论和方法,并证明了它是可以有效PAC学习的。相关的理论和方法容易推广到n维欧氏空间由超平面界定的有界凸区域规定的目标概念的PAC学习。
  这类概念的学习可以用于大范围线性规划问题可行解的近似识别。
  1 PAC学习基础知识
  假定X为实例(数据)空间,有限集Y作为数据标记集,通常取Y={0,1}(或{-1,+1})。一个函数f:X→Y决定X中数据一个划分(分类):f(x)=f(y)当且仅当x,y属于同一类。X的一个子集称为一个概念,可用其特征函数表示该子集。因此,形式上一個函数c:X→{0,1}表示一个概念,由概念构成的集合C称为概念集。本文中相关的基本知识来自于文献[1], 更多的实例和应用可参考文献[2-4]。
  5 结语
  本文将轴对齐矩形概念的有效PAC学习方法一般化到欧氏平面上有界线性凸区域规定的概念学习,其思想和方法在于有界线性凸区域是由有限条(k条)直线围成的多边形区域,在Pr[A]>ε条件下,几何上可以构造目标区域A的边界内侧的一条ε/k-环带,该环带由k个概率是ε/k区域构成。并且,在条件Pr[A]>ε下,依样本S从算法产生的目标区域AS与其中之一不相交,此时有PrS~Dm[er(A,AS)>ε]≤k(1-εk)m≤kexp(-mεk)成立,由此估计算法的样本复杂性。文中的方法对于n维欧氏空间中由超平面界定的有界线性凸区域的PAC学习方法与分析是有效的。
  文中的方法适用于数据集中的数据按预定凸区域聚类及误差分析,也可通过适当变换在非欧空间中讨论PAC学习算法。
  参考文献:
  [1]MOHRI M,ROSTAMIZADEH A,TALWAKAR A.Foundations of Machine Learning[M].Cambridge:The MIT Press,2012.
  [2]MITCHELL T M.机器学习[M].曾华军,等译.北京:机械工业出版社,2012.
  [3]周志华.机器学习[M].北京:清华大学出版社,2016.
  [4]GOODFELLOW I,BENGIO Y,COURVILLE A.深度学习[M].赵申剑,等译.北京:中国工信出版集团,2017.
  (责任编辑:周晓南)
其他文献
总政歌舞团著名青年歌唱演员、国家一级演员蔡国庆获奖感言:这样的时刻在我心中是充满真情和温暖的,因为我始终坚信绿色的中国才是一个更加和谐美丽的中国。我愿意作军中的一棵
9月29日晚,广西南宁市名树博览园三月三欢歌广场彩旗飘扬、歌声阵阵。由中国绿化基金会、国家林业局经济发展研究中心、人民网股份有限公司、绿色中国杂志社、广西自治区林业
7月11日,华中师范大学中国农村林业改革发展研究基地在京发布了2011年中国集体林权制度改革跟踪观察报告。国家林业局集体林权制度改革领导小组顾问黄建兴、国家林业局农村林
1980年9月18日的《延边日报》,发表了一条题为《长自山天池发现奇异动物,有关部门正在密切观察中》的消息。这是一条令人隙异的消息。在一个多月的时间里,国内的《吉林日报》《
根据天敌昆虫赤眼蜂与农业害虫如螟虫等之间生存竞争的特点,构造出一个生态方程。又根据赤眼蜂产卵活动与螟虫孵化的主要影响因素的温度的最适的数值域,拟定了一个模糊集合,
<正> 我国最优秀的蛋用型品种有:绍鸭,全称“绍兴麻鸭”和金定鸭。母鸭从开始产蛋直至淘汰的时间称产蛋期,一般蛋鸭利用期约350天就开始淘汰。1.产蛋初期一般100-110日龄开始
如何对多元气候因素对甘蔗含糖量的综合影响进行评判?本文采用统计分析与模糊集合相结合的方法,对广西南宁糖厂实测时间序列进行了试验,得出了定量评价的结果。
本文主要给出了半完全模的一个刻画。
财政部日前公布的数据显示,前11月全国财政收入97309亿元。全年财政收入超过10万亿已经定局,这为明年继续实行积极的财政政策创造了条件。
本文主要证明了下面的结果:紧 T_2拓扑 Boole 格的每个超滤子都有唯一的极限.