一种改进的SVM决策树算法

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:woshi52038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为进行多值分类,研究了SVM决策树.基于对SVM决策树的结构与分类性能的分析,定义了特征空间中反映类分布的类分离性测度,并将定义的类分离性测度引入到决策树构成的过程中,提出了改进的SVM决策树算法,对已有数据集的分类实验表明了本文方法的有效性。
其他文献
k-均值是著名的聚类算法,被广泛应用在诸多领域.经过多年发展,原始的MacQueenk-均值算法已经衍生出多种变形,构成了k-均值算法家族.首先回顾k-均值家族重要成员:k-均值(k-means)、k-模(k-modes)、k-原型(k-prototypes)算法和它们的模糊版本,然后提出两个新成员--变量自动加权的k-均值算法,并讨论它们在子空间聚类中的应用.文本数据的实验结果表明,变量自动加权
减少算法参数对聚类效果的影响,是聚类分析技术需要解决的一大难题.提出与离群点识别方法相结合以弥补聚类技术不足的新思路.在提出基于公共近邻的离群点概念之后,给出一种借助离群点信息自动停止聚类过程的聚类算法,该算法只需一个参数,参数的恰当取值范围可以依据识别离群点的情况确定.算法兼具处理类别属性和数值属性数据的能力.在分析过新算法一些特点后,用6个数据集测试新算法的效果,并与多种聚类算法进行对比,实验
在复杂气识别中,单纯使用神经网络存在因输入信息空间维数较大而使网络结构复杂、训练时间长,以及因冗余属性使网络拟合精度不高等缺点,为此提出一种简化的进化神经网络方法,主要包括基于粒度相似度的连续属性离散化算法;基于粗糙集的属性约简算法;基于粒子群进化计算的网络学习训练算法;以及基于黄金分割的隐含层节点数的优选等步骤.通过长庆复杂气层的实际应用表明,这种简化的进化神经网络方法不仅满足识别系统的精度要求
提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-SVM)的"部分对部分"问题分解方法,再对这些两类问题进一步分解.这种方法的特点是能将大规模、训练样本极不平衡的两类问题分解成用户希望的任意大小的相对平衡的两类问题,并能容易地实现并列学习.对读卖新闻日文数据集和路透社英文数据集进
约束关联规则挖掘是数据挖掘的重要课题之一,由于能够利用约束条件削减搜索空间,提高挖掘效率,因而受到广泛关注.为更灵活地表达用户的兴趣所在,提出规则格式约束的概念,并以Direct算法为基础,实现了一种基于规则格式约束的关联规则挖掘算法MRCAR.算法首先利用Direct算法挖掘满足规则格式约束条件的频繁项集,然后利用规则格式约束条件限制无关规则的产生.减少了侯选项集和关联规则的产生数目,提高了算法
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间的方法,采用基于决策树的强化学习模型,将传感输入空间离散化处理来构造一棵状态分类树,以便变分辨率地划分输入状态空间,并利用决策树来逼近值函数.提出的方法结合了基于短期记忆学习和统计推断方法的优点,仿真结果表明,该方法能够生成有效的状态表达和更快地进行学习。
针对具体应用设计效果更优的分类器一直是模式识别领域重要的研究内容.对于不同分类器效果的评价,目前的主要途径是建立在识别率的比较上.识别率具有简洁直观的优点,但其受测试集的影响较大,且用其指导更优分类器的设计的能力较弱.基于信息论中有关互传信息量的理论,提出了分类器的可分性度量方法,并提出了模式空间多分辨率分析的概念以及其与分类器可分性度量之间的关系,进而提出了以提高分类器分类能力为目标的模型捆绑方
XML文档压缩处理是XML数据管理研究领域的一个热点问题,已有的研究工作均以XML文档为基本处理单元,而没有考虑因文档间存在相似性所造成的数据冗余.聚类方法是XML文档分类的有效手段,提出了一种XML文档紧凑结构构造算法和相似度计算方法,通过局部迭代调优的k-means聚类算法(XCC)对XML文档集进行聚类,并在此基础上给出了XML文档压缩存储策略.实验结果表明,这一方法具有很好的性能,能够满足
当前内容适配不够准确、智能,为解决此问题,把语义网的一些思路用于内容适配中,提出根据公共Ontology跟本地Ontology连接来指导适配,从而提供更个性化、更智能的服务,而Ontology实例的相似度计算可以成为适配的依据.针对应用采用不同的权值,计算出来的相似度不同,得到的聚集也不同,这样可以针对不同的需求来进行聚集,从而指导适配,使适配更贴近人们的主观质量要求,也具有更好的语义解释.据此提
通过对汉语表达习惯、网页结构特性和用户一般浏览模式的分析,归纳出用户兴趣描述包括关键查询词和查询关联度两部分信息,并把过滤任务根据查询关联度不同划分为相关过滤、相似过滤、相近过滤3个层次,提出了可根据训练向量分布特性和用户调节参数自调整查询关联度的BiasedSVMs改进算法.基于BiasedSVMs设计并实现了一个中文Web过滤系统,该系统采用URL分析、主题句分析和网页正文分析相结合的体系结构