中文文本分类系统的研究与实现

来源 :北京化工大学 | 被引量 : 37次 | 上传用户:wtbcgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。文本自动分类是信息检索中的一个重要环节,它是指在给定的分类体系下,根据文本的内容自动判定文本类别的过程,以便于信息的检索。本文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括信息检索模型、中文分词方法、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;再次在特征项权重方面,我们分析了传统特征项权重方法的缺点,提出使用句子的重要度对特征项的权重进行加权,实验证明这种方法能有效地反映文本的内容;接下来介绍了基于向量空间模型的中文文本分类系统的总体框架,系统流程和功能模块;最后对分类系统中实现的各种特征抽取算法、权重算法和分类算法分别进行了实验对比。
其他文献
在对社会网的研究中,影响传播问题的研究占有重要地位,一直是人们研究的重点问题。然而现有的大部分研究忽略了一个重要的事实,即地理位置信息对于社会网的影响传播问题是至
随着嵌入式技术、网络技术和通信技术的发展,安防监控系统正在向小型化、移动化、主动化的方向发展,于是主动式的远程家居视频监控将会慢慢流行起来,成为一种趋势。本文采用
由于互联网行业的不断发展,随之而来的是大量的数据,因此如何在这些大量数据中获得有价值的知识成为了人们关注的焦点。在所有的数据挖掘算法中,可以利用kNN算法进行数据分类
网络上各种论坛、BBS、虚拟社区有着丰富而又繁杂的用户评论,如何从这些评论文本中挖掘对于产品性能的意见信息,越来越受到国内外研究者的关注。从网络评论中挖掘评价意见,不
作为未来通信技术的重要组成部分,无线城域网(WMAN)接入技术受到了业界越来越多的关注。但在无线城域网通信系统中,多径、阴影、多普勒频移等会严重恶化系统性能,使随机错误
目前电信业务发展迅猛,电信业务市场正在从提供基本通话服务的市场转化为以增值业务为基本特征的全面信息服务市场,运营商面临着从传统电信运营商向综合信息服务商的转变。而
互联网和嵌入式产业的快速发展,给人类社会、经济、文化带来了无限的机遇的同时,也给网络和操作系统安全带来了严峻的挑战。当黑客利用计算机系统中存在的漏洞获取主机的控制
由知识库及推理机组成的专家系统(Expert System)是人工智能应用研究最活跃和最广泛的课题之一。知识库又是组成知识性专家系统的核心部分之一,建造知识完备、逻辑清晰和独立
视觉是人类获取外部信息的重要途径,视频信息具有直观性、确定性、高效性和广泛性等特点,但由于视频本身的数据量非常大,给存储和传输带来了很多不便,为了对视频信息进行有效
互联网的快速发展为公众舆情的表达和传播提供了新的途径,越来越多的人通过网络来表达自己对社会问题的意见和看法。其中,网络论坛(BBS)是公众在互联网上表达舆情的最主要途