论文部分内容阅读
文本分类是一种有指导的机器学习,它试图将自然语言文本分配到预先指定的类别中,在这个过程中,需要用到由人工标定了类别标签的文档训练集。相比较而言,文本聚类则是一种无指导的机器学习,它试图将相似或相关的文本聚集在各自的类别中,在这个过程中,没有预先标定的类别标签和文档训练集可用。关联规则挖掘是在数据库中寻找那些满足最小支持度和最小置信度的规则,它最初的目的是通过对超级市场“购物篮数据”的分析,发现顾客购物行为之间的关联。文本分类、文本聚类、关联规则挖掘都是数据挖掘领域中所研究的重要技术,但文本分类和文本聚类是为了处理日常生活中的海量文本数据,对文本数据进行组织和管理,两者可广泛应用于Web数据挖掘、搜索引擎、信息检索等方面。近年来,关联规则挖掘技术被引入到文本分类和文本聚类中,研究如何利用文本中词语之间的关联进行文本分类和聚类。 目前基于词语关联的文本分类和聚类方法都是将整个文本看作一个关联事务,然后从这样的文本事务中挖掘频繁项集来捕捉文本级词语之间的关联。然而句子才是文本中的基本语义单元,出现在同一个句子中的一组词语,往往比它们仅仅出现在同一文本中要带有更多的关联。因此提出将文本的每一个自然句子而不是整个文本看作一条事务,来挖掘句子级的词语关联进行文本分类与聚类。以句子作为关联事务的文档表述模型称之为句子关联事务模型。 基于句子关联事务模型,提出一种新的文本分类方法SAT-FOIL。它采用传统的FOIL增益标准,贪婪地每次选择出一条规则,去除该规则所覆盖的正例,然后重复进行下一条规则的选择。选择规则的方式是进行诱导式的生长,即从一个空规则出发,每次选择一个FOIL增益最大的项来进行延伸,直到增益为零或者负数。 在SAT-FOIL中,分类预测模型解决如何利用分类器进行分类预测的问题。经过对文本匹配分类器的程度以及所匹配规则的情况进行综合,提出了四种得分模型以及相应的分类策略。 在实际数据集上的实验证明,SAT-FOIL可以取得比其它几个著名的关联文本分类算法更好的分类精度,而且,相对于当前精度最高的文本分类算法SVM,尽管在精度上略低,但是其分类器是可读的,并且可以人工修改。 随着电子邮件使用越来越普遍,邮件的分类问题对传统技术提出了新的挑战。其中邮件的动态特性对增量式分类的需求越来越高。增量式分类根据最近参与分类的文档调整分类器以适应新文档。基于SAT-FOIL的一种改进方法SAT-MOD,提出了一种增量式分类方法SAT-Inc,该方法在对分类器更新过程中,利用MODFIT修剪算法来对分类器进行修剪操作。通过在Enron电子邮件数据集上的实验发现,SAT-Inc确实能够比传统的分类方法取得更好的分类精度。随着新的文档加入到训练集中,SAT-Inc能够一直保持较高的分类精度。 另外,基于句子关联事务模型,提出了一种新的文本聚类算法SAT-Cluster,它通过统计文档与簇所共享的频繁项集的数量来衡量它们之间的相似程度,并且利用簇文档集之间的包含关系来构造簇层次。实验表明,SAT-Cluster可以取得与最优秀的传统算法Bisecting k-means媲美的效果,并且具有更好的可读性和可浏览性。