基于SVM决策树的增量式文本层次分类研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:zhuyanhua421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Classification, TC)是指把文本归到预定义的一个或多个类别中,这一任务在众多信息管理系统具有广泛的需求。目前已经出现了许多分类算法,如支持向量机、朴素贝叶斯、决策树、神经网络、K-近邻等。随着网络技术的发展,文本分类也出现了一些新的需求,例如,预定的类别数目庞大、训练样本是逐渐增加的等,这些新需求也导致对文本分类技术的进一步研究。本文在已有研究的基础上,着重研究基于SVM (Support Vector Machine)决策树的增量式文本层次分类中的两个关键技术,其一是构造有效、合理的基于SVM决策树的层次分类结构;其二是实现基于SVM决策树的层次分类器模型的增量更新。具体的研究工作包括如下几个方面:(1)在构造文本层次结构方面,本文提出了一种新的基于SVM决策树的多分类算法。该方法通过设计合理的类间可分性度量公式,把可分性最好的类划分方案放在父结点分类器执行,并结合决策树结构构建决策树SVM分类器。实验表明了该方法的有效性。(2)在增量学习方面,本文采用基于KKT条件的SVM增量学习方法增量更新层次分类器。实验表明,该算法在获得较好的分类效果的同时,能有效减少训练时间和测试时间,因此,具有很好的实用价值。
其他文献
该系统是与秦皇岛交通局合作开发的一个项目,目的在于开发一套比较完善的物流管理信息系统,以适应当前物流管理的需要和中国加入WTO的需要.该文详细阐述了基于客户机/服务器
在当今世界,交换信息已经是司空见惯的事。要想通过计算机进行信息交换,需要进行网络连接。在最近10年里,计算机局域网和广域网的技术和产品得到飞速增长。随着Internet的普及和
在该文中,我们提出一个新的基于子类浓度可达的聚类算法——CLUDRESC(CLUster based on Density-REachability of Sub-Clusters),用于快速发现大型数据库中任意形状的聚类.在
作为优秀的32位操作系统平台,Windows 2000和Windows NT以先进而稳定的特性在先进操作系统市场保持领先的地位,使其成为构建大多数应用系统的首选操作系统。但由于Windows系列
该文首先论述了安全审计的概念,介绍安全审计常用的方法以及对安全审计系统的要求.日志广泛用于系统的调试、监视和安全检查中,是日常安全审计的重要内容和维持系统正常运行
缓冲区溢出漏洞是一种常见的程序漏洞.在所有的操作系统平台上或多或少都存在着这样的漏洞.该文深入研究了缓冲区漏洞产生的根源和机理,从最典型的堆栈型缓冲区溢出开始详细
CONFIG程序是支持飞机设计的工程信息集成管理系统中的一个主要组成部分,主要对飞机设计过程中产生的计算机文件进行管理。它向用户提供文件的发放、提取、校验、批准、版本管
随着政府和企业越来越依赖于计算机网络所存储的数据信息,计算机网络的安全也就日益显示出了其的重要性.尽管人们多年来一直把计算机安全作为活跃的研究领域,但是直到现在,随
事件是数据库主动机制的关键部分,而现有的事件在结构上对刻画事件发生时的粒度过于粗糙,因而若原子事件发生,将引发包含此原子事件的复合事件之间时的冲突,严重影响了ARTDB
该文开篇先介绍该论文研究的问题的意义,然后第二章介绍相关技术.第三章对系统架构从功能层面和代理分组层面上进行介绍.第四章对系统架构的几个关键性技术进行补充性介绍,并