中文文本自动分类的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zxllxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。如何从海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。研究文本自动分类具有重要意义,它可以大大的缩短资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。 所谓文本自动分类,是指在给定的分类体系下,由计算机根据文本内容来判别文本类别。根据分类知识的获取方法不同,可将文本分类系统划分为基于知识工程和基于机器学习两种类型。由于机器学习的方法具有开发周期短、灵活性高等优点,它成为人们构造文本分类器时采用的一种主要方法。本文在构造分类器时同样采用了机器学习的方法。国外对文档分类技术的研究已经开展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的应用, 在国内,文档自动分类技术的研究起步较晚,且由于中文与英文之间存在较大的差异,不能照搬国外的研究成果,因此有必要研究并开发出实用化的中文文本自动分类系统。 本文对中文文本分类的汉语分词、特征选择、文本表示、分类算法、等关键技术进行了深入的学习和研究。在此基础上设计了一个基于KNN算法的中文文本自动分类系统。系统中,本文使用正向和反向最大匹配法相结合的方法来进行分词,经未登录词识别后,采用词频统计的方法来进行歧义处理;在特征选择过程中通过计算特征项的文档频率和信息增益这两个指标的算术平均来对特征项进行缩减;利用向量空间模型来表示文本,对于向量中特征项的权重,本文使用一种改进了的TFIDF方法来计算,改进后的TFIDF方法,考虑了特征项在文档中出现的位置、特征项的长度等信息,用它来计算权重就更为合理;分类算法是分类器设计的核心,它直接影响到分类器的性能,由于KNN算法具有较好的查全率和查准率,我们使用KNN算法来构造分类器,并对传统的KNN分类器作了改进,提出并设计了一个两级分类器,第一级分类器使用较少的特征项来表示文本,第二级则用较多的特征项来表示文本,这样对于内容较少类别特征比较明显的文档,通过第一级分类器就能得到判别结果,如果第一级判别不理想,再用第二级分类器进行判别。实验证明,使用两级分类器加快了平均响应时间,同时查全率和查准率等分类器性能指标均比较理想。
其他文献
本文围绕目前下一代互联网发展中亟待解决的多维可扩展路由体系结构的问题展开,根据下一代互联网的发展趋势,建立具有多维可扩展性的路由模型及协议,以期能够满足网络中多服
近几年来,随着居民收入的不断增加,房地产业务也随着迅速发展起来,公积金存贷款业务也同时在各家商业银行间开展起来。由于此项业务有房产作为抵押,风险极低;同时又有政府支持的背
迁移学习适用于源域数据与目标域数据分布不相同的问题,更具有实际应用价值。迁移学习方法主要有基于实例选择的迁移学习、基于特征表示的迁移学习、基于相关性知识的迁移学
移动设备和无线通信技术的快速发展,使得要求适应移动计算环境的新一代的分布式数据库系统,即移动数据库系统迅速成为数据库领域新的研究方向.移动计算技术与数据库技术的相
随着数据仓库和web技术的迅猛发展,人们对数据仓库和web技术的研究越来越广泛,数据仓库系统设计得是否合理,将直接关系到整个数据仓库系统的成败。在分析web技术与数据仓库体系
随着宽带的不断发展,通过高速互联网提供的多媒体信息服务已经成为现实。作为新兴产业的交互式网络电视(IPTV),是互联网与电视融合的产物,是宽带真正走向家庭的媒介。IPTV以流媒
随着网络技术的飞速发展,利用Internet进行远程心电监护的应用有了长足的发展。近些年又随着移动通信技术的迅速发展和成熟,远程心电监护系统又逐渐开始尝试利用移动网络进行心
网络技术在当今时代占有非常重要的地位,网络服务变得越来越普及和重要,对网络及其相关技术和理论的研究也就必然成为计算机研究领域的主流。而基于IPv6下的Anycast服务能够
随着各种嵌入式设备的快速发展,FPGA技术的日渐成熟,片上系统规模也变得越来越大。为了在有限的时间内设计出功能更加强大的SoC嵌入式设备,同时达到理想的性能指标,对该设备
伴随着计算机网络技术和多媒体技术的飞速发展,数字化信息的安全性面临着严峻的挑战。如何准确、有效地对多媒体信息进行真实性、完整性认证,以及如何更好的对多媒体信息进行版