可变空间树分类器

来源 :扬州大学 | 被引量 : 0次 | 上传用户：my_sunday_tongxing

【摘要】

：

分类是机器学习的一个核心研究内容。在多种现存的分类器中,最为简单有效的一种就是决策树。但是,传统的决策树算法由于实现的年代较早,运行效率为了适应当时有限的内存而有

【作者】

：

何萍

【机构】

：

扬州大学

【出处】

：

扬州大学

【发表日期】

：

2008年期

【关键词】

：

机器学习分类决策树 C4.5 奇异向量空间流形映射谱方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类是机器学习的一个核心研究内容。在多种现存的分类器中,最为简单有效的一种就是决策树。但是,传统的决策树算法由于实现的年代较早,运行效率为了适应当时有限的内存而有所牺牲;另一方面,传统决策树算法仅采用简单的单变量测试,所以只能产生平行于坐标轴的超矩形决策面,在需要斜线或曲线决策面的数据集上泛化性能不高。本论文针对以上不足,对决策树分类器进行了深入的研究,并得到以下三个研究成果。一、我们提出了一种基于主存的C4.5快速实现,称为Fast C4.5。Fast C4.5利用预处理首先将所有数据在各连续属性上的先后顺序提取出来,然后用间接桶排序结合位并行技术对连续属性的分裂点评价进行优化,通过在界定范围内的二分搜索来加速对测试属性分割点的寻找,并在此过程中进行一些结构上的整合来减少冗余计算,改进系统的整体性能。Fast C4.5改善了C4.5算法的部分时间复杂度,大大减少了决策树的构建时间,并在实验中得到验证。二、我们提出了一种潜在属性空间树分类器(LAST)框架,通过将原属性空间变换为更容易分离数据或更符合决策树分类特点的潜在属性空间,突破传统决策树算法的超矩形决策面局限,改善树分类器的泛化性能。在LAST框架下,我们提出了两种奇异向量空间斜决策树(SODT)算法,通过对全局或局部数据构建奇异向量空间,并在此新空间内构建传统的单变量决策树或树结点,最终间接获得原空间内近似最优的斜决策树分类器。实验结果显示,与传统的单变量决策树和其它斜决策树算法相比,SODT的分类准确率更高,构建的决策树大小更稳定,且决策树构建时间与单变量决策树相近,而远小于其它斜决策树算法。三、我们提出了一个基于非线性流形映射的分类器(NMMC)框架,通过结合流形映射,分类器和在测试数据集上的扩展三个可变元素,为非线性分类器的设计提供了一个统一的框架。在NMMC框架下,我们进一步提出了一种谱空间树分类器(SSDT),它将NMMC的流形映射实现为拉普拉斯矩阵的谱空间变换,将分类器实现为决策树,从简化新条件属性与类别属性之间关系的角度,提高决策树分类器的泛化能力。在SSDT的基础上,我们还提出了一种基于有监督流形映射的谱空间树分类器,通过在无监督的谱空间变换中加入已知训练数据的类别信息,从而有监督地指导不同类别的数据在新流形上更好地分离开来。实验结果显示,SSDT无论在分类准确率、构建的决策树大小,还是在分类稳定性方面,都远胜于传统的决策树算法。

其他文献

Web服务组合QoS容错处理架构设计与实现

Web服务作为一种流行的资源整合平台,可跨平台集成网络上的各种资源和服务。W3C将Web服务定义为“URI上的应用软件”。Web服务组合通过一定的逻辑关系将多个服务按照特定的功

学位

Web服务服务质量容错WebJetFlow在线处理策略

基于Web Service异构数据库信息集成的研究

随着网络和分布式应用的发展和普及，大量的异构数据源应运而生。而多源数据又是构建系统的重要部分，尤其是各类关系数据库，其异构性和管理的局部性以及地理位置的差异性导致企业

学位

异构数据库数据集成Web Service技术

基于关键点加权的掌纹识别方法研究

目前,生物认证是最重要、最可靠的以计算机为辅助的个人身份认证方法之一。它以人体唯一的、可靠的和稳定的生理学特征作为鉴别个人身份的依据,采用计算机强大的计算能力和网

学位

掌纹识别多模态Gabor滤波器关键点加权Mahalanobis距离

基于LabVIEW的PCB视觉检测系统的研究与实现

计算机视觉检测技术是精密测试技术领域内最具有发展潜力的新技术，它综合运用了电子学、光电探测、图象处理和计算机技术.将计算机视觉引入到工业检测中，实现对产品质量的快速

学位

视觉检测系统精密测试技术机器视觉图像处理

基于精确力学模型和FDH树碰撞检测算法的布料仿真技术

布料仿真是一种用计算机来模拟布料动态形态的技术,具有广阔的应用前景。弹簧—质点模型简单易用,计算效率高,应用较广,但反映布料物理特性较困难,若要在对材料特性要求较高

学位

布料仿真粒子模型弹簧质点模型力学三角面片网格

基于数组的关联规则挖掘算法的改进研究

数据挖掘技术从一开始就是面向应用的,使用数据挖掘工具进行数据分析可以方便地获得重要的数据模式并应用于决策。关联规则挖掘作为数据挖掘的重要技术广泛应用于各大领域,特

学位

关联规则数据挖掘Apriori算法频繁项集数组

无线传感器网络节能路由与协同计算

无线传感器网络是一种新兴的数据收集和处理技术。其主要组成部分是部署在被观测区域中的大量微小的无线传感器节点所构成的分布式网络，具有大规模性、自组织性、动态性等特点

学位

无线传感器网络路由协议协同计算节点

移动通讯公司网上营业厅系统的研究与实现

互联网技术研究近年来发展迅猛，目前是非常活跃的研究领域，应用市场前景十分广阔。新技术、新思想、新应用层出不穷，推动着整个行业向纵深化方向发展。Java的出现是互联网技术发

学位

B/S模式MVC模式Struts架构Spring架构国际化机制

基于结构的大规模点云配准技术研究

配准问题是计算机视觉以及摄影测量领域主要的研究课题之一。配准研究主要是将多个不同坐标系下的数据转化到同一坐标系下，并对齐它们相互之间共同的部分。用于配准的数据一般

学位

点云数据配准技术线结构面结构三维激光成像技术

电力短信系统中的流量控制和拥塞控制策略的研究

电力企业数字化是一个十分复杂而迫切的过程,如何实施一个既能满足当前企业需求又具有可持续发展能力,功能强大又具有良好柔性的信息系统,就成为今后一个时期内电力企业信息化的重要内容。近年来,电力事业进入高速发展阶段,已由计划经济向市场经济迅速过渡,电力营销由以生产为中心阶段进入以消费者为中心阶段,建立完善的现代电力客户服务体系是电力企业数字化的一个重要组成部分。因此,近几年各地电力集团公司开始引进发达国

学位

短信系统慢启动拥塞控制流量控制

可变空间树分类器

与本文相关的学术论文