基于SVM的中文文本分类系统研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:gaolch013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网带来了信息的急剧膨胀,促成了诸多新型应用需求,如垃圾邮件过滤,垂直搜索引擎,数字图书馆等,这些系统迫切要求对文本进行自动分类。中文文本的自动分类也一直是该领域中的重要研究内容。   中文文本的分类涉及中文分词,文本的特征表示,分类模型的建立和分类的实现等多个方面的研究,本文对这些方面使用的技术和方法进行了回顾和研究,使用特征选择方面较为优秀的卡方检验和分类算法中较为主流的支持向量机(SVM,Support VectorMachine)模型构建了一个初步实用的文本分类系统。   通过对两个较为常用的中文语料库的实验观察,总结了中文文本特征的分布规律,并提出了符合该规律的特征选择方法——基于有效信息比的特征选择方法,以实验数据证明该方法能够有效改善类别间分类的均衡性,提高总体分类效果。结合语言信息的层次性特点,提出了使用上下文词对作为新特征,对传统词汇特征加以补充的建议,同样以实验证明了其有效性。
其他文献
语义桌面是语义Web研究的重要分支,它将语义Web技术应用到桌面管理系统,用知识本体对桌面资源进行描述,改变现有的以文件夹组织文件的管理方式,提供精确查询,用户无需关心文件的存
学位
Ad Hoc网络由于其具有不需要基础设施、多跳、分布式控制、节点低能耗和移动性等特点,使得基于有线网络的协议和规范并不适合于Ad Hoc网络,因此必须重新设计新的协议来满足Ad H
近年来,随着视频压缩技术,硬件存储设备和网络传输技术的快速发展,视频、音频、图像等多媒体数据作为一种动态、直观和形象的数字媒体,承载了大量丰富的语义信息,广泛应用于各类信
学位
网络发展到今天,没有一个概念能像Web服务这么快地流行起来,并引起广泛的关注,可以说Web服务是一场软件的革命。Web服务的诞生不是偶然的,是Internet以及相关技术发展到一定程度
传统互联网的组成形式是由文档(网页)及其文档之间的关联(超链接)组成,这种组织形式并不能被机器所理解。知识图谱作为一种用实体及其语义关系来表达知识的语义网络,通过将实体及其
计算机网络的发展激发了人们对计算能力拓展的追求,分布式计算是这一努力的一个重要方向。从超级计算到集群,网格计算,Web2.0以及云计算都是这一探索不同侧面的反映。网格计算的
学位
经过近三十年的发展,地理信息技术逐步步入计算机主流技术。而Web GIS因其无需安装客户端不仅为广大用户带来了更加便利的地理信息服务,同时也推动地理信息技术的进一步发展。W
随着高性能计算的不断发展演变,千万亿次高性能计算机已经成为当前的研究热点。超并行(HPP)体系结构作为面向高性能计算的新型体系结构,结合了MPP的可扩展性,DSM的高效通信和机
网络与多媒体技术的发展,带动了录播技术的发展,并且在精品课程、远程教育、公开课等领域应用广泛。目前可以同时呈现摄像机视频、计算机屏幕图像和索引目录的录播系统主要有
视频、音频等多媒体资源的广泛应用和网络传播是技术和社会进步的标志,但也带来了新的管理保护上的问题。如何进行有效地对视频内容进行管理保护已经成为信息安全关注的重点方
学位