基于SVM的分类方法在内容管理中的应用

来源 :西北大学 | 被引量 : 0次 | 上传用户:tzhblyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术是内容管理研究的热点之一。大部分内容管理系统中的类别层次都对应一定的分类法(例如yahoo)或者存在一个预定义的具有类似于树型结构的分类体系,这就要求在内容管理系统中使用的文本分类技术具备层次分类能力;然而现有大部分的分类技术都局限于水平分类,即认为类别之间是无结构的,相互独立的。 本文首先对文本分类所涉及到的各方面的技术进行了概括,重点提出了一种基于支持向量机(SVM)的自动层次文本分类方法HTCSVM,支持向量机是由Vapnic在1992年提出的,是一类相对比较新的机器学习方法,它是建立在统计学习理论和结构风险最小化基础之上的,是迄今在分类方面最好的方法,具有完备的数学理论基础和其他方法所没有的优良特性。目前SVM在层次分类方面应用的较少。本文对HTCSVM层次分类方法进行了时间复杂度分析,推导出HTCSVM层次分类方法在训练阶段的时间复杂度为多项式阶。并且利用本文提出的层次分类性能评估框架PMFHC对HTCSVM层次分类方法进行了评估,实验结果表明:HTCSVM分类方法的分类效果是令人满意的。本文成功的将HTCSVM层次分类方法应用于陕西省工业攻关项目(项目编号:2003K05-G32)中,项目的实际运行情况证明了HTCSVM分类方法是稳定可靠的,并且在分类精度方面能够满足实用要求。 为了评估层次分类性能,本文提出了一种新的层次分类性能评估框架PMFHC,该框架引入了类别相似度和类别距离的概念,在评估时充分考虑类别之间的层次结构关系对分类性能的影响。PMFHC评估框架是对水平分类性能评估方法的扩展,并且与它保持兼容。 本文还对几种有代表性的文本特征选择策略进行了研究,并对它们进行了对比实验,结果证明:x~2统计(CHI)方法对分类性能的提升贡献最大,本文最终采用该方法作为特征选择策略。
其他文献
随着现代信息化技术的深入发展,数字信息呈爆炸式增长,给数据备份系统带来了巨大挑战。数据去重作为一种数据缩减技术,能够有效地删除数据流中的重复数据、提高存储利用率和节省
随着电子商务和电子政务的普及应用,用户对这些信息服务的安全需求也越来越高。PKI (Public Key Infrastructure公钥基础设施)是一种能够满足这一需求的身份授权与鉴定机制。
旅游资源三维可视化平台为旅游景区的科学规划与管理提供强有力的手段,为游客提供有关旅游景观的全方位立体信息,具有广泛的应用前景。目前,对旅游资源三维可视化的实现有三
工作流技术是进入90年代以后计算机应用领域的一个新的研究热点。工作流的概念起源于生产组织和办公自动化领域。它是针对工作中具有固定程序的常规活动而提出的一个概念。工
近年来,无线网络中音频视频等实时多媒体流应用需求不断增长,这些应用一般都是基于UDP传输协议的,UDP没有拥塞控制机制,这些应用的大量涌入将引起带宽的不公平分配甚至引起拥塞崩
Peer to Peer(P2P)技术是近年兴起的一种新的网络模型。和传统的C/S模式的网络模型相比,P2P网络能够很好地实现计算机资源和服务的共享,提高资源和服务的利用率,有利于资源和服务
在过去的二十年里,VME总线被广泛的应用于全球的工业、商业及军用嵌入式计算机,主要包括交通控制系统、武器控制系统、电信交换系统、数据捕获、视频成像和机器人等领域。但
电子商务正作为一种新型的商务模式在全球范围内迅猛地发展。然而,从整个电子商务域来看,一些小的企业因为资源不足导致电子商务活动长时间停滞不前,而一些实力雄厚的大企业
随着信息时代数据的爆炸性增长,传统的以太网络与存储网络相分离的网络架构需要服务器拥有以太网卡和光纤通道适配器来连接各自的网络,给数据中心布线、扩容以及功耗管理带来了
在现代数据中心往往需要配置上万存储节点。在此大规模环境下,节点失效将成为常态,因此需要采用数据冗余技术来保证数据的可靠性。在传统模式下,往往采用多副本技术以保障数据可