基于决策树和K最近邻算法的文本分类研究

被引量 : 0次 | 上传用户：maliuzhu

【摘要】

：

文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满

【作者】

：

王煜

【发表日期】

：

2006年期

【关键词】

：

文本分类决策树 KNN算法模糊逻辑粗糙集理论神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据模糊化的工作量和模糊决策树的规模,减少了分类规则数量。本文关于KNN算法的改进主要做了三个方面的工作:欧氏距离中的权重求解问题:提出了两种权重求解方法。一种采用灵敏度方法获得每个文本特征对分类作用的权重,并且在距离公式中又加入了同一特征对不同文本类的分类作用的权重;第二种是基于chi-square距离理论的权重求解方法,首先根据SS-Tree划分的区域查找近似k0个最近邻,根据k0个最近邻和chi-square距离理论计算权重。这两种方法都可以提高KNN算法的分类精度。提高K个最近邻查找速度:提出了一种快速查找精确K个最近邻的算法TFKNN,预先建立SSR-Tree,SSR-Tree的每个非叶子结点的孩子按照其距父结点中心点的距离排序。根据这棵树进行K个最近邻的查找,只需在满足一定条件内的部分样本中查找K个最近邻,从而减小了查找范围,大大降低了相似度计算量。裁减样本库:提出了一种KNN算法中的训练样本库的裁减维护方法,首先采用CURE算法对训练样本库进行聚类,获得每个聚类的代表样本组成新的训练样本集合,然后用tabu算法对此样本集合进行进一步维护。此算法不仅极大缩减样本库裁减的工作量,且使KNN算法的分类速度和分类精度都得到了提高。

其他文献

小学快乐作文教学研究

近十几年来，小学作文教学在理论与实践方面做出了大幅度的改革尝试，取得了一些成绩，尤其是在教法方面做出了积极地探索与总结。但通过调查研究发现作文难教、难写，仍然是困扰当前

学位

快乐作文教学三阶段进程循序渐进元认知

论毛泽东的理想主义

论毛泽东的理想主义张允熠在纪念我们民族的思想巨人毛泽东诞辰一百周年、缅怀他的丰功伟绩之际，去追溯、反思毛泽东理想主义的形成、内核和得失，自当“别有一番滋味在心头”。

期刊

毛泽东早期思想理想主义

我国鞋类产品出口应对绿色贸易壁垒对策分析

绿色贸易壁垒是当前世界贸易领域中的热点问题。WT0倡导贸易自由化,提倡绿色贸易,以实现可持续发展;但是,它却被“绿色贸易壁垒”人为扭曲。从绿色贸易壁垒的内容及特征入手,

学位

绿色贸易壁垒环保标准供应链管理TOXPROOF认证

我国轿车零部件全球采购成本分析

全球采购是现代信息技术广泛应用条件下全球经济一体化、分工深化与企业对核心竞争能力追求的必然产物。其最大表现形式是全球供应链网络体系。随着现代技术的飞速发展,以跨

学位

供应链全球采购轿车零部件成本管理

公司法人格否认法理与审判实务

公司财产与股东财产的分离是公司独立人格和股东有限责任的基础和前提,如果违背了这个前提,允许股东直接控制他投入公司的财产,过度操纵公司,侵害债权人和社会利益,又继续允

学位

公司法人格否认审判程序证明责任执行程序

任务型教学法在俄罗斯留学生初级听力课中的应用研究

任务型教学法诞生于20世纪80年代的英国,其中“任务”是教学方法的核心。所谓任务就是指有目标的语言交流活动,教学活动以学生为中心,教师设计具体的目标明确的活动,让学生用目的语通过协商、讨论,达到学习目的。通过几十年的发展,任务型教学法的发展逐渐走向成熟,国内的大批学者也开始了针对此教学法的相关研究,尝试将任务型教学法引入第二语言教学中,已经取得了丰富的研究成果。伴随着中俄两国的紧密关系发展,俄罗斯

学位

任务型教学法听力教学教学设计教学实验

商业地产经营模式的研究

近年来，商业地产中由于购物中心利润空间的诱惑，其商业形式备受房地产开发商的青睐。从而导致全国各地的商业设施开发在2003年达到了历史新高，时至今天这股热潮依然未退，然而其表

学位

商业地产购物中心经营模式

高速机车受电弓稳定受流与控制研究

发展高速铁路是铁路现代化建设的必然趋势,而电力机车又是高速机车中的主力军。电力机车所需驱动能量来自于接触网,而电能能否顺利获取,关键取决于弓网关系的优劣。随着列车

学位

受电弓接触网灵敏度分析动态优化主动控制稳定性

当代西方发展理论的变迁与危机

当代西方发展理论的变迁与危机李国强一当代西方发展理论（ＤｅｖｅｌｏＰｍｅｎｔＴｈｅｏｒｙ）又称发展学或发展研究（ＤｅｖｅｌｏＰｍｅｎｔＳｔｕｄｙ），是第二次世界大战以后兴起的社会科学分支，其主旨在于为落后国家的现代化提供理论指导和政策示向

期刊

当代西方李国强刘易斯立论依据欧洲中心主义

“重写文学史”：个人主体的焦虑

“重写文学史”：个人主体的焦虑张颐武一“重写文学史”一直是处于“新时期”文化中心的命题。它在当时激起了强烈的反响和不断的讨论与争议。与“重写文学史”直接相关的“中

期刊

“重写文学史”五十年代二元对立“新时期”中国现代文学个人主体

基于决策树和K最近邻算法的文本分类研究

与本文相关的学术论文