KNN文本分类研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户：richieli333

【摘要】

：

文本分类最初是应文本信息检索的要求出现的。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,

【作者】

：

闫晨

【机构】

：

燕山大学

【出处】

：

燕山大学

【发表日期】

：

2010年期

【关键词】

：

文本分类向量空间模型特征选择权重类倾斜

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类最初是应文本信息检索的要求出现的。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,同时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智能搜索引擎、个性化软件助理等领域。本文分析了各种算法的分类思想、文本预处理、特征选择和特征提取方法,并且对K最近邻文本分类问题进行了深入的研究。首先,深入研究了传统的TFIDF加权方案,分析出其存在的缺陷。在此基础上分别提出了对词频函数和逆文档频数函数的改进策略,使其更适合K最近邻文本分类。其次,为了解决K最近邻文本分类的边界问题,定义了文本分类中类密度和类倾斜的概念。通过标准差判别类密度是否出现倾斜,并且引入收缩因子收缩发生倾斜的类密度,直到类密度不再发生倾斜。之后,根据收缩后的类密度对传统的K最近邻决策函数进行修改,形成了自适应的加权K最近邻文本分类。最后,针对K最近邻方法存在分类速度问题,提出了一种基于密度的K最近邻分类器训练样本裁剪方法,对类的中心区域样本进行了大量裁剪。这种方法降低了K最近邻算法的计算量,从而大大提高了分类器在分类阶段的分类速度。实验结果表明,本文所提出的观点均优于传统观点,并且提高了K最近邻分类器的准确率、查全率和分类速度。

其他文献

基于XML数据库网关的研究

计算机系统和数据库中保存的数据格式是不兼容的,很多时候开发者要解决的主要问题是如何通过Internet来交换这些数据。共享、交换数据是实施电子商务的基础,数据交换问题的解

学位

EDIXML数据库网关电子商务

曙光3000上基于泛型编程的并行结构库的研究与实现

并行程序的开发是并行计算中一个公认的难题。其中一个重要的原因在于缺乏系统的开发并行程序的方法和相关的辅助工具。现有的大多数并行程序设计模型本质上是对并行程序编码

学位

设计模式泛型编程泛型并行结构库PVM/MPI并行编程

面向移动应用的GIS系统研究与开发

管理信息系统(MIS)在各行各业得到广泛的应用。由于其处理对象主要是文本和数字等简单信息,表达形式单一,缺乏直观性和决策可视化,很难有效分析复杂的空间地理信息而成为阻碍

学位

地理信息系统组件技术道路网模型最短路径分析

基于UML的软件体系结构六视图描述研究

随着软件系统规模和复杂性的不断增加，软件体系结构在软件开发中的作用显得越来越重要。软件体系结构是软件系统的高层抽象，用于描述整个系统的结构和行为。目前，软件体系结构已

学位

软件体系结构风格描述语言框架UML视图

基于UML的面向对象仿真及其在中央空调仿真培训系统中的应用研究

随着计算机科学技术的飞速发展,系统仿真技术已经成为许多领域进行科学探索和创新的常用手段。其中,制冷空调系统的仿真一直是系统仿真中的一个研究热点,但它要取得良好的效

学位

面向对象仿真UML空调

生物信息学中的模式发现算法研究

生物信息数据的快速增长促使人们发展新的技术去认识它，利用它。这是认识世界，改造世界的必然途径。生物信息学研究的对象是DNA序列、蛋白质序列。motif是生命密码的一种表现形

学位

生物信息学起动子motif关联规则挖掘算法

基于计算网格的集群系统负载平衡和进程迁移机制的研究与实现

如何有效利用系统范围内的资源是集群系统研究的一个关键问题，资源负载平衡是实现资源有效共享，提高系统资源有效使用率的必然要求。在网格环境下更是如此——在网格环境中，集群

学位

计算网格集群系统多级负载平衡算法进程迁移机制多级资源池资源有效共享

基于AUML可视化建模及其代码自动生成

近年来，有关多Agent理论及应用的研究已经成为分布式人工智能的热点。多Agent系统作为一种新的软件开发模式，不仅要研究多Agent的内部结构与实现框架，还要研究系统的整体体系结

学位

面向对象建模语言可视化建模代码自动生成多Agent系统

基于Diameter协议的网络接入服务器模型研究

认证、授权和计费(AAA)协议,如TACACS和RADIUS,当初是为了对终端访问服务和PPP拨号服务实行访问控制而开发的。随着互联网的发展,以及新的接入技术的引入(如无线接入、DSL、

学位

AAADiameterEAPPANA网络接入服务器

数据仓库和数据集市实施方法论研究及实践

数据仓库技术是当今信息管理技术的主流，是促进企业正确管理与决策的重要决策支持工具。数据集市是为满足某个部门或一组用户的信息需求而定义和设计的数据存储，是为特定部门的

学位

信息管理数据仓库元数据数据集市

KNN文本分类研究

与本文相关的学术论文