文本分类的特征选择方法研究

来源 :南京航空航天大学 | 被引量 : 9次 | 上传用户:liyang3d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当前计算机技术的不断发展,特别是Internet技术的发展,文本信息的数量呈现爆炸式增长。如何帮助人们有效的获取自己需要的信息,成了信息处理领域一个亟需解决的问题。而对文本进行有效的管理方法之一就是对文本进行归类,因此文本分类技术就是帮助人们准确高效的定位所需的信息,有效组织信息的手段。本文首先对文本分类的基本概念作了介绍,阐述了文本分类的过程及其难点,并对文本分类的相关技术进行讨论,包括文本预处理、文本表示、权重计算等。文本分类中的特征选择是文本分类中的一项关键技术,因此,论文着重讨论了文本分类中的特征选择算法,对目前的一些常见的特征选择方法进行详细的介绍,并针对传统的TFIDF算法的不足,提出了一种基于信息熵的TFIDF公式的特征选择方法TDE,并将其应用到文本分类中去。另外本文也对各种常见的文本分类算法做了分析和对比其优缺点。最后,论文讨论了文本分类系统的性能评价体系,给出了常见的几种分类效果的评价方法。用实验对比分析了几种特征选择方法,表明了TDE方法的有效性。
其他文献
伴随着通信技术的不断发展和视频处理技术的日新月异,数字视频的应用范围越来越广泛。由于原始视频数据量比较大,因此很难全部在硬盘中进行储存或者在网络上进行传输。然而,
迁移工作流是近年来工作流研究的新方向,是一种基于移动agent计算的工作流管理新模式。迁移工作流引擎、迁移实例(migrating instance,mi)和工作位置是组成迁移工作流系统的
近年来,迁移工作流(Migrating Workflow)成为了工作流管理研究的一个新方向。基于移动计算的迁移工作流包含三个要素:工作流引擎、工作位置和迁移实例。工作流引擎定义工作流
动作数据是进行三维角色动画制作的重要元素,通过动作捕捉设备获得的人体动作数据比传统的关键帧技术生成的角色动作具有更好的视觉真实性。目前,人体动作捕获数据已经被广泛应
随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分
随着互联网技术以及各种数据库应用的快速发展,数据存储以及数据传输过程中所涉及的数据复杂程度已远超过传统的数据,许多现代的应用都要分析和处理一些不可靠、不一致和不准确
从90年代初开始,随着人类基因组计划的展开与深入,科学工作者发现,人类的各种遗传、性状和甚至疾病等都与基因有着密切的联系。基因的载体是染色体,即一条完整的基因序列。不
随着科学技术的发展,越来越多的单产品处理器被批处理器所取代。人们对批调度问题的研究达到了前所未有的高度,其中大多数工作是针对单机并行批调度问题的研究。   论文研
随着数码相机的广泛应用,人们在旅游、聚会等场合越来越多地使用相机来记录一些有意义的、值得回忆的场景。但由于场景中的场地、光照或者天气不合适、相机性能的限制和用户
随着信息时代的来临,人们在日常生活中获取的信息量与日俱增。如何在海量数据中选取对自己有用的信息,成为目前广大用户面临的主要任务。在此情况下,数据挖掘技术应运而生并