在划分数据空间的视角下基于决策边界的分类器研究

被引量 : 0次 | 上传用户：yan1982zi

【摘要】

：

分类器是机器学习的一项重要技术。分类器研究中存在映射和划分两种视角。在映射视角下分类模型可被看作从数据空间到标签集的映射,分类器的训练过程可被看作在假设空间中搜

【作者】

：

严志永

【发表日期】

：

2011年期

【关键词】

：

机器学习分类器决策边界可视化分类器要素组合分类器局部分类器 Vapnik-Chervonenkis维 C4.5算法 Naive Bayes分类器支

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类器是机器学习的一项重要技术。分类器研究中存在映射和划分两种视角。在映射视角下分类模型可被看作从数据空间到标签集的映射,分类器的训练过程可被看作在假设空间中搜索最优假设的过程。在划分视角下分类模型可被看作将数据空间划分成若干决策区域的一组决策边界,分类器的训练过程可被看作划分数据空间获得决策边界的过程。映射视角是主流,在映射视角下研究分类器的工作很多。目前还没有在划分视角下对分类器进行系统研究的工作。本文在划分视角下以决策边界为工具对分类器进行研究,进行构建在划分数据空间视角下以决策边界研究分类器的理论框架和基于此理论框架改进分类器两方面的研究。本文的研究工作主要有：1)提出了决策边界、决策区域和概率梯度区域的定义。提出了获取决策边界的形式化方法和采样法。提出了决策边界点集(Decision Boundary Point Set,简称DBPS)算法、决策边界2D网格点集(Decision Boundary Point Set using Grid for 2-D data,简称DBPSG-2D)算法和决策边界神经元集(Decision Boundary Neuron Set,简称DBNS)算法来获取决策边界附近的采样点。提出了基于自组织映射的决策边界可视化(Self-Organizing Mapping based Decision Boundary Visualization,简称SOMDBV)算法和基于自组织映射的概率梯度区域可视化(Self-Organizing Mapping based Probability Gradient Regions Visualization,简称SOMPGRV)算法来分别对决策边界和概率梯度区域进行可视化。2)提出了在划分数据空间视角下基于决策边界的分类器三要素九因素理论框架。在此理论框架下,划分目标、决策边界形式和划分方法是分类器的三要素。划分目标需要考虑训练准确率、错分样本特征和决策边界的微位置三个因素；决策边界形式需要考虑划分能力、提供的领域知识和可理解性三个因素；划分方法需要考虑利用的信息、划分方式和分类模型复杂度三个因素。3)提出了基于K近邻(K nearest Neighbors,简称KN)类型的错分样本特征。KN类型根据样本与其K近邻之间的类别关系,将样本分为S类、DS类和D类三类。C4.5算法、Naive Bayes分类器和支持向量机(Support Vector Machine,简称SVM)三个分类器与K近邻(K Nearest Neighbors,简称KNN)算法在KN类型上的错分样本特征有着显著不同。提出了组合KNN算法和C4.5算法/Naive Bayes分类器/SVM的K近邻组合(Knearest Neighbors Combining,简称KNC)算法。KNC算法使用KNN算法来对S类和DS类样本进行预测,使用其他三个分类器对D类样本进行预测。4)研究了离散化算法对分类器决策边界的影响。提出了离散化算法能够提高Naive Bayes分类器泛化能力的原因在于离散化算法能够提高Naive Bayes分类器的Vapnik-Chervonenkis (VC)维。将离散化算法应用于SVM和KNN算法,并研究了离散化算法对SVM和KNN算法的VC维的影响。5)提出了在Naive Bayes分类器的决策区域内训练分类器的二次划分(Second Division,简称SD)算法,并对现有的局部分类器训练算法进行研究。SD算法是一种组合全局学习和局部学习的算法,因此能够提高Naive Bayes分类器的泛化能力。将现有的局部分类器训练算法分为测试选择、划分覆盖和训练选择三类。并提出了训练局部分类器能够提高分类器泛化能力的原因在于其能够提高分类器的VC维和能够利用训练数据集中更多信息。

其他文献

农技服务供给模式创新分析——基于农民合作社视角

面对中国农业科技服务供给模式存在的困境,应考虑建立以国家层面的农技推广机构为主导、农民合作社等合作组织为基础、农业科教和涉农企业分工协作的多主体基层农技推广体系

期刊

农民合作社农技服务供给模式创新

项目管理在电信业务运维支持系统的应用

通信企业的重要后台支撑部门在信息化、电子化高速发展的今天却没有一个综合的可以包含线路维护、资源、障碍、资产等信息的综合系统。虽然公司目前系统很多,但针对运维功能

学位

支撑系统项目进度风险质量

贵州贫困地区人口问题及对策思考

本文依托于可信而准确的统计资料和作者较长时间在贫困地区做人口、经济、生态协调发展调研及从事成果实践的体验，较具体地从理论与实际的结合上阐述广贵州省贫困地区的基本概

期刊

一般生育率文盲率育龄妇女少数民族人口总和生育率问题及对策

社区突发事件的机理与应对机制

<正>2008年伊始,中国南部广大地区遭受了罕见的暴风雪袭击,停电、断水、出行中断等种种不便困扰着广大居民;2008年5月12日,里氏8.0级地震袭击汶川,无数房屋在一瞬间化为废墟,

期刊

社区突发事件社区居民应急志愿者应急管理机构应对机制

镁锂合金表面微弧氧化膜及复合涂层的制备与性能

镁锂合金作为最轻的金属结构材料,具有较高的比强度、良好的机械加工性能、优良的减振性能、较强的抗电磁干扰性能和抗高能粒子穿透能力等优异性能,在航空、航天、军事、汽车

学位

镁锂合金微弧氧化复合涂层耐腐蚀性能

英语专业精读课上交际能力的培养(英文)

众所周知 ,培养学生交际能力是外语教学的主要目的。交际法为外语教学提供了广阔的前景 ,交际法重在鼓励学生通过积极地参加各种交际活动达到提高交际能力的目的。在英语专业

期刊

交际法交际能力交际活动

21世纪发展中印关系面临的机遇和挑战

21世纪中印两国都面临实现现代化的艰巨任务。两国应该相互支持 ,密切合作 ,不断扩大合作领域 ,正确处理好双边关系 ,把握住目前出现的大好时机。尽管中印之间还存在一些障碍

期刊

21世纪中印关系机遇挑战

新型三唑硫酮类杀菌剂丙硫菌唑

概述了新型广谱三唑硫酮类杀菌剂丙硫菌唑的创制经纬、化学名称、理化性质、毒性、作用机理、专利、合成方法与应用等

期刊

丙硫菌唑三唑硫酮类杀菌剂

太湖蓝藻藻蓝蛋白提取纯化工艺研究

机械和人工打捞已成为治理蓝藻的重要应急措施,但打捞上岸的蓝藻处置不当会造成二次污染。本研究以打捞蓝藻无害化处理和资源化利用为目标,开展蓝藻藻蓝蛋白高附加值产品的开

学位

蓝藻藻蓝蛋白提取纯化稳定性

精神薪酬——提升一线员工满意度的管理策略

<正>近期《南方周末》对波及全国的“民工荒”现象进行了报道,民工再次成为社会关注与讨论的热点话题。据报道,“民工荒”已成为制约地区经济发展的重要因素,民工劳动力日益

期刊

员工满意度一线员工物业管理企业物业管理行业标杆员工精神薪酬管理策略

在划分数据空间的视角下基于决策边界的分类器研究

与本文相关的学术论文