基于改进KNN的文本分类算法的设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shenth_1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息量的爆炸式增长,电子文本信息也随之大量增加。如何有效地管理电子文本信息也成为了当今信息科学技术日益重要的一大课题。而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。目前比较常用的文本分类技术主要有:向量空间模型(VSM)、K个最近邻法(KNN)、神经网络(NNet)、支持向量机(SVMs)和贝叶斯算法(Bayes)等。而KNN算法是一种简单,但是非常有效的文本分类算法,有着广泛的应用。论文首先介绍文本分类技术的历史与现状,然后详细介绍了KNN算法作为一种非常简单有效的文本分类算法,在文本分类技术中的广泛运用。传统KNN算法往往运用非监督的权重分配方法对特征项的特征项分配权重,一定程度上影响了距离测度计算的精确性。文章针对传统权重分配算法的不足,采取x 2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。随后,论文针对传统KNN算法计算量过大的缺点,引入了生成代表样本集的方法,对原始训练集进行裁剪并予以取代,从而减少了分类系统的计算量,有效地提高了系统的效率。最后,论文采用了Reuters-21578文档集作为训练集和测试集,分别应用了传统的非监督权重分配方法(布尔权重,TF-IDF),以及改进的监督权重分配方法(x 2统计量方法和信息增益)进行KNN分类算法精确度的比较,验证了监督权重分配方法对于提高文本分类算法精确度的作用。另外,还对基于传统KNN算法的分类器与基于改进的使用代表样本集方法的KNN算法分类器进行比较,证明了代表样本集方法有效地提高了分类器的效率。
其他文献
甲状腺结节是内分泌系统的常见多发病,其中恶性结节预示着甲状腺癌的出现。然而,甲状腺癌死亡率约占所有肿瘤死亡的0.2%,表明大多数甲状腺癌是可以治愈的。超声检查是目前普
伴随着计算机网络技术的快速发展,信息化时代的来临,各种信息泄露频繁发生,信息安全成为信息时代人们最关注的问题之一。如何在保证信息安全的前提下RSA加密算法能够快速实现
在无线通信系统中,为了实现更大范围的覆盖和更高的数据传输速率,各小区均采用全频率复用。然而,全频率复用导致相邻小区使用同样频率资源的用户彼此间产生较大干扰,降低了用户服
雷达辐射源信号检测是现代电子情报侦察系统中的关键技术。在现代电子战环境中,信号密度越来越大,导致辐射源信号同时或相继到达接收机并重叠或交叠在一起,形成多分量雷达辐
随着计算机技术的飞速发展,目标的检测与跟踪已经成为智能视频监控领域中的热点问题,在模式识别、计算机视觉、图像处理等领域把目标跟踪作为重要的研究课题,在视频监控、军
智能视频监控是计算机视觉领域的一个重要研究课题,其主要工作就是从动态场景的视频图像中检测、识别和跟踪感兴趣的运动目标,进而分析、理解并描述监视目标的行为。运动目标
随着无线传感器网络()的快速发展,目前传感器节点的软硬件技术是传感器网络研究的重点。在一些路由协议中,最为看重的是数据源节点至汇聚节点的传输延迟以及网络中路由开销,
数字荧光示波器(DPO,Digital Phosphor Oscilloscope)是最新一代的示波器,它集成了数字存储示波器和模拟示波器的优点,既有数字存储示波器的波形存储,瞬态捕获,负延时触发和高级触
物联网(The Internet of things)是通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通
无线传感器网络是一种综合了传感技术、嵌入式技术、分布式信息处理技术和无线通信等技术而发展起来的现代网络技术,可以广泛应用于国防军事、国家安全、环境科学、交通管理