论文部分内容阅读
随着网络与信息技术的发展,信息量急剧扩增,给人们的工作和生活带来了极大方便。人们在享受日益丰富的信息的同时,也被其所淹没,想要搜索自己感兴趣的信息或者管理这些信息都变得越来越困难,这是一个迫切需要解决的问题。自动文本分类技术可以很好的帮助人们解决这些问题。文本分类是当今信息检索和数据挖掘等领域的研究热点,其主要任务是在预先给定类别标记集合的情况下,根据文本的内容来判定其类别属性。目前文本分类已在信息的组织与管理、信息过滤、信息检索等方面都有重要应用。现在已有很多分类算法应用到文本分类领域,比如K近邻方法、朴素贝叶斯方法、决策树方法以及支持向量机方法等。粗糙集理论是波兰华沙理工大学的坡那克(Pawlak)教授在1982年提出,这是一种分析不确定知识的强有力的数学工具。与目前常用的分类算法比较起来,将粗糙集理论应用到文本分类中具有以下优点:首先,粗糙集处理问题比较客观,不需要除所需处理的数据集合外的任何先验信息;其次,将粗糙集理论应用到文本分类可以在不影响分类精度的条件下降低特征向量的维数,并且可以得到显式表达的分类规则。特征加权是文本分类中的重要步骤。本文通过深入分析粗糙集理论和逆文本频率加权方法,提出了一种基于粗糙集的特征加权方法。在粗糙集理论中,近似分类质量和近似分类精度可以在全局的角度去分析特征词对文本分类的作用,可以利于粗糙集的这些方法对特征词进行加权。不过这两个度量只是体现了全局的一种重要性,加权过程是对每个文档中的特征词进行加权,所以在处理过程中还要考虑到单个文本的特性。在本文中笔者认为如果某个特征词在一类文本中文本频次比较高,而在其他类的文本频率又比较低,则该特征词含有比较多的分类信息,应该赋予较大的权重。本文结合逆文本频率加权方法的思想,将词频、近似分类质量和近似分类精度结合起来构建了新的加权公式。通过粗糙集的约简理论可以得到分类规则,但是在对新文本进行分类的过程中,经常遇到分类规则与新的对象不能很好匹配的情况。这主要是由于测试文本的多样性,通过对训练集的训练不能得到非常全面的分类规则。本文分析了常用的完全匹配与部分匹配方法,结合部分匹配与特征权重的思想,提出了一种基于权重的部分匹配方法,并实验证明应用新的基于权重的部分匹配方法可以改善规则匹配的正确率。最后,对本文的工作进行了总结,指出了取得的成果与不足,并对下一步研究工作进行了展望。