论文部分内容阅读
已知一种高性能的两步文本分类方法,第一步使用某种分类器对可靠部分的文本进行分类,第二步使用某种分类器对不可靠部分的文本再进行分类,该方法能够明显地提高分类的效果。而两步分类时第一步和第二步所用分类器的组合有多种方案,现有的研究并没有回答采用哪种组合方案效果最好。本文在中文长文本,中文短文本,英文文本中分别使用三种经典的分类器Rocchio、Bayes、KNN进行了系统地实验研究,提出一种无须穷举式对比而能够较快确定第一步的分类器的方法,通过实验验证得出该方法的正确性。并且将多类别的分类问题转换为多个两类分类问题进行了两步分类的实验研究。研究过程如下:
(1)将Rocchio、Bayes、KNN三种分类器的类别判定公式在二维坐标空间中进行转换。因为进行两步分类时,须将分类器转换成为能够在二维坐标中明确表示文本所属类别测度的形式。
(2)通过实验,分别确定了中文长文本,中文短文本,英文长文本的特征选择算法,并且分别确定了第一步特征空间大小和第二步特征空间大小。
(3)输出Rocchio、Bayes、KNN三种分类器在二维空间的不可靠部分,验证Rocchio、Bayes、KNN三种分类器满足在类别分割直线附近的较小区域内出现较多的被错误分类的文本。
(4)以英文长文本为例,用穷举的方式,实验对比了Rocchio、Bayes、KNN三种分类器共九种组合的两步分类效果,得出最优的组合,并且将最优组合和现有的研究结果进行比较,表明最优组合的效果有所提高。
(5)研究和分析最优组合当中第一步所使用的分类器具有的特点,提出假设:当分类器输出的所有类别错误率之和与所有类别的区域率之和的比值最大时,应该作为第一步分类器,且最优组合存在于以其作为第一步分类器的时候。
(6)分别在中文长文本,中文短文本中验证所提假设的正确性。首先由(3)所得到的实验数据求得Rocchio、Bayes、KNN三种分类器各自的错误率之和与区域率之和的比值,得到该值最大的分类器,然后以其作为第一步分类器进行三组两步实验,并与其余六种组合再进行实验对比,结果表明(5)中所提的假设在中文长文本,中文短文本中是成立的。