基于决策树中文文本分类技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:wj34271996
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网上的文档数据在飞速增长,在这些海量的Web结构页面中蕴藏着巨大潜在价值的知识,如何快速、有效地发现潜在知识,成为数据挖掘技术一个重要的研究方向。文本分类是Web知识发现的一项重要的内容。有了文本分类的工具,用户可以更加方便地阅览Web内容,而且通过限制搜索范围,可以在互联网上尽快查找自己感兴趣的内容。文本分类是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究文本特征空间的降维问题、决策树分类算法、决策树剪枝及利用决策树抽取文本分类规则等问题。本文对文本分类中所涉及的特征降维方法、决策树分类、剪枝、文本抽取规则进行了研究。首先,针对文本特征降维提出了一种基于模式聚合和改进卡方原理的降维方法,有效地降低文本维数并提高了分类精度;其次,在决策树常用C4.5分类算法上提出了新的DC4.5分类算法,同时也对决策树的剪枝方法进行了改进;最后,根据对分类过程中几处重要环节的改进,提出新的基于决策树的文本分类规则获取方法,并获得分类精度较高且易于理解的文本分类规则。本文首先对文本分类进行了简介,讲述了文本分类的相关技术,包括文本表示模型、文本特征空间的降维、文本分类方法(KNN,支持向量机,贝叶斯等),再次重点介绍了决策树文本分类方法,针对决策树分类过程中特征降维、分类算法、后期剪枝等环节提出了三种改进的方案。通过上述的改进,使用决策树进行文本分类,大大降低了建树时间,提高了分类正确率,也在一定程度上解决了利用高维属性发现规则的难题。经过测试,表明根据改进方法实现的分类算法既有决策树易于抽取可理解规则的优势又保证了分类精度、提高了分类效率,具有较好的实用价值。
其他文献
无线传感器网络(WSN)作为未来新兴的技术之一,它的迅速发展和广泛应用,将对人们的社会生活和产业变革带来极大地影响和巨大的推动,它相对于蓝牙网络、无线局域网、移动通信网、Ad
在成熟的技术支持和国家相关政策的推动下,数字电视机顶盒在国内得到了极大的普及。同时在智能家庭网络项目的推动下,机顶盒也渐渐成为了智能家庭网络的网关。随着用户对机顶盒
网络中的信息每分每秒都在急剧增长,人们如何从海量数据中即时、有效地获取所需信息,成为目前网络搜索引擎挑战的一大难题。网页排序算法作为搜索引擎的核心技术,主要作用是将搜
随着Internet和多媒体技术的迅速发展,人们对通过网络获取多媒体信息的需求越来越多,视频点播、远程教学、新闻发布等多点通信业务将成为新一轮运营竞争的焦点。人们已经在网络
作为导向人类复杂系统研究的一个过渡,科学家们通过对群体生物的观察与研究产生了以模仿自然界群体生物行为特征的群智能研究领域。群智能是指任何受群体生物集体行为启发而设
无人飞行器(UAV)可用于民用事业、满足国防需求,也可以开发和利用航空资源。国内外对飞行器都进行了大量的研究。一般对飞行器的研究主要分为三个类型:固定翼机、旋翼机和扑翼机
随着互联网和Web2.0技术的快速发展,网络媒体以其独特的交互传播方式逐渐成为民众表达诉求和获取信息的主要渠道,极大的促进了民众话语权的解放。作为反映社情民意的风向标,网络
非线性科学是一门研究非线性现象共性的基础科学,其中混沌理论是非线性科学的一个重要分支。由于混沌系统具有复杂的动力学行为,人们开始研究混沌的控制和混沌同步的问题。本
软件复用是在软件开发中避免重复劳动的解决方案,是解决软件危机的有效手段。基于构件的软件开发是当前最具潜力的软件复用方法,构件库系统是基于构件的软件开发核心。而构件
研究用户日用电负荷数据的特征,有助于电网公司对用户的用电行为有更透彻的理解。如果能依据用户异常用电数据的离群特性建立基于机器学习的用电异常行为检测系统,对于电力行业和智能电网的发展具有重要的意义。论文在基于对数据预处理和机器学习方法理论研究的基础上,结合电网用电数据特征,针对如何建立有效的异常检测模型以提高用户用电异常行为检测的算法性能,进行了深入的分析研究。主要工作内容如下:首先,介绍了用电异常
学位