中文文本自动分类的应用研究

来源 :淮北师范大学 | 被引量 : 0次 | 上传用户:gengyunshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极大地便利性,但同时也带来一个严峻的问题。怎样才能从如此庞大的信息库中准确快速的获取我们所需要的信息就是亟需解决的问题。目前,文本分类技术以其实用性受到了研究者的关注。文本分类也成为当前热门的研究课题之一。本文首先概述了中文文本分类的流程以及在分类流程中所涉及的相关理论:简要的分析了布尔模型、概率模型和向量空间模型这三种文本表示模型的表示原理以及各自的优缺点,其中重点描述了向量空间模型;对信息增益、文档频率、期望交叉熵、互信息和x2统计特征选择方法进行详细地介绍以及优缺点的比较,比较了常见文本分类算法Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)的优缺点,对分类器性能评价指标召回率、准确率和F1值等做了简单描述。其次深入分析了K最近邻算法,总结了近年来各研究对KNN算法改进方案,并针对其存在的问题,提出一种改进方案。新的方案引入拉推策略的思想,通过对误分样本的迭代分类,为每个类设置一个权向量,改进了相似度计算公式,从而提出一种改进KNN算法。最后,设计了四组对比实验,选取了较合适的特征维数和K值,实验证明,改进的KNN算法有较好的分类性能。
其他文献
随着信息技术的飞速发展,数据信息量不断增加,在大量数据中挖掘出真正有益的信息越来越难和耗费时间。此外,由于行业间系统异构,导致数据信息之间很难实现共享和相互利用,宝
图谱理论在计算机科学、通信网络、量子化学等众多学科中都有应用,由图的特征多项式可以直接得到图的谱,因此研究得到图的特征多项式对于研究这些学科都很有益。图的邻接矩阵
学位
自从2008年以来,浏览器扩展的安全问题开始得到人们的关注。随着浏览器发挥的作用越来越重要,该问题逐渐变成个研究热点。但是目前尚没有保护用户免受针对浏览器扩展攻击的方法
当今随着科技的高速发展和国民经济的发展,人们步入了终身学习型社会,对教育有更多、更高的新要求。网络远程教学以其突破传统教学的时间、空间和地域的限制等优势,越来越受
随着互联网、移动通信技术的迅速发展,特别是以3G技术为代表的移动互联网技术以及移动智能手机的广泛普遍应用,以目不暇接之势将人们带入了一个全新的移动互联网时代,使人们真正
随着互联网上私有的和公开的Web服务的数量与日俱增,传统的服务注册中心仅从服务发现的角度存储当前可用版本的服务信息,缺乏从全局和历史的视角对互联网上曾出现过的Web服务接
学位
以收集检测数据为中心的传感器网络已广泛应用在诸多领域,例如环境监测、城市交通、军事国防、空间探索等。面对传统传感器网络中通信设备单一的数据传输途径,在复杂、远距离的
随着科学技术与现代工业的飞速发展,机器人在各个领域扮演着越来越重要的角色,传统的机器人适应与感知环境能力较弱,已不能满足人类的需求。近年来,视觉技术的发展日新月异,