论文部分内容阅读
随着互联网的普及和规模的急剧扩张,作为网络80%以上信息的主要表达方式,各种各样的电子文本得以迅速膨胀,往往造成大量无用信息淹没了有用信息,出现了信息极大丰富知识却相对贫乏的网络信息搜索现状。如何有效地组织和管理这些海量信息资源,使人们能够按照文本内容实现对其自动分类,帮助用户迅速准确地获取其所需要的知识和信息,是计算机科学领域目前的研究热点之一,具有广泛的应用背景和实用价值。粗糙集是由波兰数学家Z.Pawlak于1982年提出的一种处理含糊和不确定问题的集合理论,建立了知识和分类能力的联系,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出决策或分类规则。该理论自90年代被引入到机器学习、人工智能等领域后,己经成功地用于知识获取、规则提取、决策分析、模式识别、数据挖掘等领域。本文结合粗糙集理论对文本分类进行研究,主要进行了以下工作:研究文本分类过程中的特征选择方法和文本向量模型的权值计算公式TF-IDF,采取不同的特征选取方法,比较基于文本特征选择方法的改进TF-IDF权值计算公式效果,确定进行文本分类的合适权值计算公式。研究将粗糙集应用于文本分类技术,通过简单的等距离数据离散化方法,生成易于理解的文本分类规则。研究粗糙集理论中的属性约简算法,对利用文本特征选择方法和粗糙集理论本身的两种不同属性重要性的评价方法进行综合,并详细比较各种属性评价方法在精确约简和近似约简的表现,从中找出合适的用于启发式属性约简的属性重要性衡量方法。对于粗糙集理论中的启发式属性约简算法进行改进,利用两种约简信息,变传统的一次约简为二次约简。本文研究结果证明,将粗糙集的属性约简理论应用于文本分类,可以较大降低文本描述维数,很好地解决文本向量维数过大的问题。通过属性约简生成的文本分类规则,具有较高的文本分类正确率和较大的应用价值。