基于粗糙集的文本分类技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:filltang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和规模的急剧扩张,作为网络80%以上信息的主要表达方式,各种各样的电子文本得以迅速膨胀,往往造成大量无用信息淹没了有用信息,出现了信息极大丰富知识却相对贫乏的网络信息搜索现状。如何有效地组织和管理这些海量信息资源,使人们能够按照文本内容实现对其自动分类,帮助用户迅速准确地获取其所需要的知识和信息,是计算机科学领域目前的研究热点之一,具有广泛的应用背景和实用价值。粗糙集是由波兰数学家Z.Pawlak于1982年提出的一种处理含糊和不确定问题的集合理论,建立了知识和分类能力的联系,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出决策或分类规则。该理论自90年代被引入到机器学习、人工智能等领域后,己经成功地用于知识获取、规则提取、决策分析、模式识别、数据挖掘等领域。本文结合粗糙集理论对文本分类进行研究,主要进行了以下工作:研究文本分类过程中的特征选择方法和文本向量模型的权值计算公式TF-IDF,采取不同的特征选取方法,比较基于文本特征选择方法的改进TF-IDF权值计算公式效果,确定进行文本分类的合适权值计算公式。研究将粗糙集应用于文本分类技术,通过简单的等距离数据离散化方法,生成易于理解的文本分类规则。研究粗糙集理论中的属性约简算法,对利用文本特征选择方法和粗糙集理论本身的两种不同属性重要性的评价方法进行综合,并详细比较各种属性评价方法在精确约简和近似约简的表现,从中找出合适的用于启发式属性约简的属性重要性衡量方法。对于粗糙集理论中的启发式属性约简算法进行改进,利用两种约简信息,变传统的一次约简为二次约简。本文研究结果证明,将粗糙集的属性约简理论应用于文本分类,可以较大降低文本描述维数,很好地解决文本向量维数过大的问题。通过属性约简生成的文本分类规则,具有较高的文本分类正确率和较大的应用价值。
其他文献
随着信息科学技术的快速发展,网络上的各种信息急剧增长,丰富的信息资源虽然使用户更容易获取所需要的知识,但同时也使人们受到垃圾信息和冗余信息的困扰,这些垃圾信息和冗余信息
我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是
学位
异构机群系统利用工作站和个人计算机进行分布式并行处理,以较低的成本完成大规模、复杂问题的计算处理。相对于单一的并行计算机,异构机群系统具有较高的性价比,并且非常具有发
微阵列技术是近年来分子生物学实验技术的一个突破,利用该技术可以对成千上万个基因的表达进行平行分析。这些基因表达数据通常构成一个数据矩阵,对这些矩阵进行分析和挖掘,
本文结合国土资源部三峡库区专项基金(SXKY4-041)等项目,采用范例推理技术CBR(Case Based Reasoning)结合其他人工智能技术作为边坡稳定性评估的理论基础,针对三峡库区(Three G
当数据在工作流中流动时,执行操作的用户在改变,用户的权限也在改变,这与数据处理的上下文环境相关。采用传统的访问控制技术,如DAC,MAC,则难以做到这一点,若采用RBAC,也需要频繁地更
本文基于面向对象的思想给出了图形系统的各种模型,主要讨论了图形类库,通用图形编辑系统,以及动画制作技术,针对动漫设计中各种基本图元的数据描述的数据结构进行了定义,也对各种
随着多媒体网络应用数据流在Internet中的增加,使Internet的“尽其所能”的服务难以满足新数据流的服务质量的需求,加上单根光纤的通信速率有多个数量级的提高,网络节点(路由器/
作为互联网的一大应用,电子邮件一直受到人们的青睐,并已成为人们日常生活中通信、交流的重要手段之一。但是近些年来垃圾邮件问题日益严重,中国网民平均每周收到的垃圾邮件数量