基于SVM的多类文本分类研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:WEIFINDYOU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。为了在这些海量的、异质的、非结构化的数据中提取感兴趣的、潜在有用的模式和隐藏的信息,需要对文本信息进行数据挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程,它是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势。因此,支持向量机在文本分类中具有很大的应用潜力。但是,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、多类分类、训练和分类速度较慢等。传统支持向量机是针对两类分类问题的,如何将两类分类方法扩展到多类别分类是支持向量机研究的重要内容之一在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法的训练和分类速度相对较快,且解决了不可分区域问题,是一种很好的方法。本文针对二叉树支持向量机多分类方法存在的弊端,综合考虑了类距离与类的分布对类间可分离性的影响,采用聚类分析方法建立树的结构,以提高多分类器的决策速度与准确率。最后在复旦大学李荣陆博士的中文语料库上进行了文本分类实验,并对实验数据进行了分析和总结,实验结果验证了所提方法的有效性。
其他文献
最近几年,随着医学影像技术的成熟和发展,基于这些神经影像技术的图像数据提取人脑的全脑结构与功能连接模式,用于脑疾病的预测和诊断,已经成为新的研究热点。通过运用机器学
随着网络规模的急剧膨胀和网络业务类型的日益多元化发展,一些新型网络应用如视频会议、VoIP、远程教育等对网络资源的需求越来越高,现有的网络体系架构在满足应用请求的同时
物流行业作为一个新兴的行业,正处于蓬勃发展的时机。物流公司的业务支撑系统中逐渐累积了大量的数据,简单报表工作已经无法满足公司管理层对于数据分析的需求。公司管理层迫切
在开放教育这种分散式的学习模式下,教学管理工作是保证良好教学质量最重要的一个环节,教学管理是否到位直接关系着教学的质量。为配合中央电大“课程超市”的服务理念、提高天
随着数字时代的来临,数据的存储和处理工作越来越得到重视。数据挖掘技术作为一种数据处理方法需要对数据进行有效的预处理,而预处理过程中对存储在数据库中的缺失数据进行推
嵌入式操作系统已经被广泛的应用于各种嵌入式设备,由于嵌入式设备有着数据实时采集、现场控制、高危环境等特殊应用背景,嵌入式操作系统对实时性都有一定的要求。随着嵌入式
自二十世纪90年代以来,关于Agent和多Agent的系统已经得到许多人的关注和研究。当前对于智能Agent主体,已经由传统的BDI(信念-愿望-意图)逻辑发展到了社会概念的BDI逻辑,这使得A
度量是机器学习领域中的热点问题之一,很多机器学习算法的性能都严重依赖于数据的度量(如KNN算法)。度量学习作为一种学习与特定任务以及数据相关的度量方法已被广泛用于分类
航迹规划是一项实现无人飞行器自动导航的关键技术。在现代战争中,作战环境日益复杂,各种防空系统的性能日益提高,要实施对作战目标的有效打击,依靠一架飞行器单独执行并成功
图像编辑技术自上世纪50年代出现后,随着数字多媒体硬件和软件技术的兴起而迅猛发展,为人们创建和处理图像提供了丰富且便捷的方式。而图像编辑传播技术作为该领域内的经典问