【摘 要】
:
文本分类最初是应文本信息检索的要求出现的。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,
论文部分内容阅读
文本分类最初是应文本信息检索的要求出现的。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,同时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智能搜索引擎、个性化软件助理等领域。本文分析了各种算法的分类思想、文本预处理、特征选择和特征提取方法,并且对K最近邻文本分类问题进行了深入的研究。首先,深入研究了传统的TFIDF加权方案,分析出其存在的缺陷。在此基础上分别提出了对词频函数和逆文档频数函数的改进策略,使其更适合K最近邻文本分类。其次,为了解决K最近邻文本分类的边界问题,定义了文本分类中类密度和类倾斜的概念。通过标准差判别类密度是否出现倾斜,并且引入收缩因子收缩发生倾斜的类密度,直到类密度不再发生倾斜。之后,根据收缩后的类密度对传统的K最近邻决策函数进行修改,形成了自适应的加权K最近邻文本分类。最后,针对K最近邻方法存在分类速度问题,提出了一种基于密度的K最近邻分类器训练样本裁剪方法,对类的中心区域样本进行了大量裁剪。这种方法降低了K最近邻算法的计算量,从而大大提高了分类器在分类阶段的分类速度。实验结果表明,本文所提出的观点均优于传统观点,并且提高了K最近邻分类器的准确率、查全率和分类速度。
其他文献
计算机系统和数据库中保存的数据格式是不兼容的,很多时候开发者要解决的主要问题是如何通过Internet来交换这些数据。共享、交换数据是实施电子商务的基础,数据交换问题的解
并行程序的开发是并行计算中一个公认的难题。其中一个重要的原因在于缺乏系统的开发并行程序的方法和相关的辅助工具。现有的大多数并行程序设计模型本质上是对并行程序编码
管理信息系统(MIS)在各行各业得到广泛的应用。由于其处理对象主要是文本和数字等简单信息,表达形式单一,缺乏直观性和决策可视化,很难有效分析复杂的空间地理信息而成为阻碍
随着软件系统规模和复杂性的不断增加,软件体系结构在软件开发中的作用显得越来越重要。软件体系结构是软件系统的高层抽象,用于描述整个系统的结构和行为。目前,软件体系结构已
随着计算机科学技术的飞速发展,系统仿真技术已经成为许多领域进行科学探索和创新的常用手段。其中,制冷空调系统的仿真一直是系统仿真中的一个研究热点,但它要取得良好的效
生物信息数据的快速增长促使人们发展新的技术去认识它,利用它。这是认识世界,改造世界的必然途径。生物信息学研究的对象是DNA序列、蛋白质序列。motif是生命密码的一种表现形
如何有效利用系统范围内的资源是集群系统研究的一个关键问题,资源负载平衡是实现资源有效共享,提高系统资源有效使用率的必然要求。在网格环境下更是如此——在网格环境中,集群
近年来,有关多Agent理论及应用的研究已经成为分布式人工智能的热点。多Agent系统作为一种新的软件开发模式,不仅要研究多Agent的内部结构与实现框架,还要研究系统的整体体系结
认证、授权和计费(AAA)协议,如TACACS和RADIUS,当初是为了对终端访问服务和PPP拨号服务实行访问控制而开发的。随着互联网的发展,以及新的接入技术的引入(如无线接入、DSL、
数据仓库技术是当今信息管理技术的主流,是促进企业正确管理与决策的重要决策支持工具。数据集市是为满足某个部门或一组用户的信息需求而定义和设计的数据存储,是为特定部门的