论文部分内容阅读
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在己成为一个巨大的信息源,如何让互联网信息更好地为人类服务,目前已成为一个重要课题。
针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术,探讨数据挖掘的基础知识,Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分,文本预处理、特征提取、文本分类/文本聚类等是WEB文本挖掘的关键技术。
文本分类技术是WEB文本挖掘中一项最重要的技术,常用的文本分类方法,如:简单中心向量比较算法、K近邻算法和支持向量机等,但传统的分类方法存在着不足。粗糙集理论是一种适用于不完整和不确定系统知识发现的数学工具,可以从粗糙集理论着手,研究WEB文本挖掘分类技术。基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将文本的每个特征项的权值进行离散化处理,然后通过属性约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快,根据这种方法设计出一种基于粗糙集的Web文本挖掘系统。