基于SVM的中文文本分类系统研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：gaolch013

【摘要】

：

互联网带来了信息的急剧膨胀，促成了诸多新型应用需求，如垃圾邮件过滤，垂直搜索引擎，数字图书馆等，这些系统迫切要求对文本进行自动分类。中文文本的自动分类也一直是该领域中的重

【作者】

：

应镇

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2009年期

【关键词】

：

文本分类特征选择支持向量机垂直搜索引擎中文分词中文语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网带来了信息的急剧膨胀，促成了诸多新型应用需求，如垃圾邮件过滤，垂直搜索引擎，数字图书馆等，这些系统迫切要求对文本进行自动分类。中文文本的自动分类也一直是该领域中的重要研究内容。　　中文文本的分类涉及中文分词，文本的特征表示，分类模型的建立和分类的实现等多个方面的研究，本文对这些方面使用的技术和方法进行了回顾和研究，使用特征选择方面较为优秀的卡方检验和分类算法中较为主流的支持向量机(SVM，Support VectorMachine)模型构建了一个初步实用的文本分类系统。　　通过对两个较为常用的中文语料库的实验观察，总结了中文文本特征的分布规律，并提出了符合该规律的特征选择方法——基于有效信息比的特征选择方法，以实验数据证明该方法能够有效改善类别间分类的均衡性，提高总体分类效果。结合语言信息的层次性特点，提出了使用上下文词对作为新特征，对传统词汇特征加以补充的建议，同样以实验证明了其有效性。

其他文献

一种基于思维导图的语义桌面系统

语义桌面是语义Web研究的重要分支，它将语义Web技术应用到桌面管理系统，用知识本体对桌面资源进行描述，改变现有的以文件夹组织文件的管理方式，提供精确查询，用户无需关心文件的存

学位

语义桌面

Ad Hoc网络中隐藏终端和暴露终端问题研究

Ad Hoc网络由于其具有不需要基础设施、多跳、分布式控制、节点低能耗和移动性等特点，使得基于有线网络的协议和规范并不适合于Ad Hoc网络，因此必须重新设计新的协议来满足Ad H

学位

Ad Hoc网络隐藏终端暴露终端并行MAC协议

体育视频中音频分类技术研究

近年来，随着视频压缩技术，硬件存储设备和网络传输技术的快速发展，视频、音频、图像等多媒体数据作为一种动态、直观和形象的数字媒体，承载了大量丰富的语义信息，广泛应用于各类信

学位

体育视频

Web服务技术研究及其在新闻发布系统中的应用

网络发展到今天，没有一个概念能像Web服务这么快地流行起来，并引起广泛的关注，可以说Web服务是一场软件的革命。Web服务的诞生不是偶然的，是Internet以及相关技术发展到一定程度

学位

Web服务技术Internet协议ASP.NET平台新闻发布系统

知识图谱自动构建关键算法研究

传统互联网的组成形式是由文档（网页）及其文档之间的关联（超链接）组成，这种组织形式并不能被机器所理解。知识图谱作为一种用实体及其语义关系来表达知识的语义网络，通过将实体及其

学位

知识图谱叙词表信息抽取表示学习

网格性能度量方法

计算机网络的发展激发了人们对计算能力拓展的追求，分布式计算是这一努力的一个重要方向。从超级计算到集群，网格计算，Web2.0以及云计算都是这一探索不同侧面的反映。网格计算的

学位

计算机网

面向服务Web GIS系统设计与实现

经过近三十年的发展，地理信息技术逐步步入计算机主流技术。而Web GIS因其无需安装客户端不仅为广大用户带来了更加便利的地理信息服务，同时也推动地理信息技术的进一步发展。W

学位

面向服务四层架构三方模型地理信息服务函数接口

HPP体系结构下分布式文件服务研究

随着高性能计算的不断发展演变，千万亿次高性能计算机已经成为当前的研究热点。超并行(HPP)体系结构作为面向高性能计算的新型体系结构，结合了MPP的可扩展性，DSM的高效通信和机

学位

高性能计算并行计算机分布式文件双层缓存

高清视频流采集录播系统的研究与实现

网络与多媒体技术的发展,带动了录播技术的发展,并且在精品课程、远程教育、公开课等领域应用广泛。目前可以同时呈现摄像机视频、计算机屏幕图像和索引目录的录播系统主要有

学位

高清录播画中画AACH.264

基于显著度的视频指纹研究与平台实现

视频、音频等多媒体资源的广泛应用和网络传播是技术和社会进步的标志，但也带来了新的管理保护上的问题。如何进行有效地对视频内容进行管理保护已经成为信息安全关注的重点方

学位

视频资源

基于SVM的中文文本分类系统研究

与本文相关的学术论文