论文部分内容阅读
目前传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,用户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一个日益流行且重要的研究课题。 文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等,其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。 本论文主要探讨了文本自动分类的算法,所作的主要工作如下: 1.描述了文本的向量空间模型,并进行了常用文本分类算法的性能分析; 2.重点研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方法可以自动提取分类规则,比人工建立规则库容易实现得多; 3.为了实现网上文本数据的挖掘,提出将基于规则抽取的分类技术应用到搜索引擎上的设计思路,并证明了该方法的可行性。 基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快。 本论文还提出了一种基于文本自动分类的搜索引擎的设计。由于目前搜索引擎的检索结果列表通常过于庞大,给用户逐个浏览寻找相关的结果带来极大不便。本文提出在搜索引擎的用户接口与检索器之间接入文本分类器,由它对检索结果进行联机分类,将其划分为若干个具有明确主题的簇,大大方便了用户查找跟查询要求相关的文档。 最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。