基于粗糙集的文本分类算法研究

来源 :东北师范大学 | 被引量 : 7次 | 上传用户:yuantxunda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,信息处理成为人们获取有用信息不可缺少的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域,如支持向量机方法、K近邻方法、朴素贝叶斯方法、决策树方法等等。与这些方法相比将粗糙集理论用于文本分类有以下优点:粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息;包括了知识的一种形式模型,使得知识有了清晰的数据意义,并且可用数学方法来分析处理;能够获得分类所需的最小特征属性集,可以在不影响分类精度的条件下降低特征向量的维数;可以得到最简的显式表达的分类规则。而其它方法则有的无法得到显式规则,如朴素贝叶斯方法和K近邻方法,有的得到的规则含有大量的冗余条件,如决策树方法。本文研究利用粗糙集对文本进行分类的理论与方法。首先,我们对文本进行预处理,包括分词、词频统计、停用词的处理等;然后利用TF-IDF函数提取特征;之后用决策表来表示分类知识:将特征词的集合作为属性集,特征词的权值作为属性值,文本所属的类别作为决策属性,再通过属性约简得到分类规则;最后根据规则对测试文本进行分类,验证训练结果的正确性。实验结果表明,基于粗糙集的文本分类方法是行之有效的。它不但有效降低了特征向量的维数,而且保证了文本分类的精度和召回率。
其他文献
随着监测系统智能化的快速发展,监测数据在交通、环境、安防等领域发挥着越来越重要的作用。音视频融合的研究可以利用视觉与听觉的互补效应来感知环境变化。此外数据量巨大的
随着互联网的飞速发展,网络承载的流量和内容也越来越庞大,由此造成的网络拥塞和用户体验下降也越来越成为人们关注的焦点。由于如今网络流量的使用量过大,以及各种P2P,VOIP
实时调度算法是嵌入式实时系统设计和实现的关键问题之一,也是保障实时系统两个必备特性(时限性和可靠性)的重要方法,是实时系统中重要而活跃的研究领域。在众多的实时调度算法
随着全球信息化的发展,信息技术已经成为一种应用面最广,渗透性最强的战略性技术。Internet的日益普及,极大地推动了国家信息化的步伐,它在给我们带来难得的发展机遇的同时,也带来
学位
ASP(Application Service Provider,应用服务提供商)平台为加速中小企业的信息化进程提供了一个有效途径,随着平台的不断推广,企业用户信息(如客户信息、财务信息等)的不断增加,
本文对基于Web的问答系统答案抽取进行了研究。文章提出了一个新的结合形式概念分析的概念化聚类用户日志的方法,使用改进的基于DBSCAN聚类算法聚类用户的日志,根据问题/查询词
随着手机应用的迅速扩展,越来越多的应用程序从电脑移植到手机上面,而三维程序在手机上的应用也极大的丰富了手机的应用范围。然而,由于手机物理硬件及计算能力的限制,大型场
在目前的人脸图像信息处理领域中,包含有人脸识别、人脸跟踪、姿势估计、表情识别等多个研究方向,然而,所有这些研究方向都涉及到一个人脸标识和定位的问题,即必须知道人脸在图像
随着3D动画、影视特效、建筑模型、数字媒体等产业的迅速发展,人们对三维场景绘制的需求也越来越多。三维绘制具有计算量大、数据繁多的特点,特别是随着建模技术的发展和人们