论文部分内容阅读
随着Interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应运而生。该技术的出现,极大方便了人们准确定位信息和管理信息,可被广泛应用于信息检索和文本过滤等领域。
但是,自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点,文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究,提出了有效的改进办法。
本文的研究内容和创新性工作主要包括以下几个方面:
1.在信息检索领域,查全率与查准率的关系已在理论上有了深入的研究,但是在文本分类领域,二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发,从理论上分析了查全率、查准率以及测试集之间的关系,证明了在测试集确定的前提下,整个分类器的查全率与查准率是一对相互一致的性能指标,针对单个类别的查全率和查准率之间存在相互制约的关系,并且用实验对该结论进行了验证。
2.经典的特征权重计算方法TFIDF(Tem Frequency and Inverted DocumentFrequency)认为,文本中某特征的重要程度与特征在文本中出现的次数成正比,与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响,提出了一种基于类别分布的特征权重计算方法 TFIDFIE(Term Frequency,Inverted Document Frequency and Inverted Entropy),增大只在一个或几个类别中集中出现的特征的权重,减小在大多数类别都出现的特征的权重。实验结果表明,该方法可以显著提高分类性能。
3.特征选择和文本表示是两个相互独立的模块,特征选择的本质是考虑特征和类别的关系,选出对分类贡献大的特征:文本表示的本质是考虑特征与单个文本的关系,突出能代表文本的重要特征。本文分析了在文本表示时引入特征和类别的关系,对特征选择和分类器性能的影响。理论分析和实验结果都证明,特征选择和文本表示模块对特征与类别关系的分别引入,是两个相互独立的行为,互不影响。在文本表示模块使用特征和类别的关系,可进一步改善分类性能。
4.免疫机制的本质是区分“自己”与“非己”,本文借鉴了免疫系统的克隆选择和抗体浓度控制原理,提出了一种新的文本分类算法——基于抗体浓度的克隆选择算法,其中抗原对应训练文本,B细胞对应分类器的可能解,抗体对应分类器的解与训练文本的亲和度。该算法基于抗体的浓度和亲和度选择免疫反应细胞,具有高亲和度和低抗体浓度的细胞其选择概率相对较高。对多个免疫反应细胞经过多次克隆变异后选取最优解作为记忆细胞,由最终保留的记忆细胞群生成分类器。整个过程既保证了解的正确性,又保证了解的多样性。通过在数据集20 newsgroups上和Rocchio、Naive Bayes及SVM算法进行比较,发现在我们的实验中,该算法的分类性能优于Rocchio和Naive Bayes,与SVM性能相当。
5.由于信息资源分布的特殊性,在实际应用中大部分数据集都存在各类别样本数目不均衡的特点,而大部分的分类算法并没有考虑这个问题,训练时把各类别同等对待。本文针对这种情况,从数据集的层面上进行改进,提出了类别均衡法,以改善小类别的分类性能。类别均衡法首先根据类别规模以类为单位对不均衡训练集重新采样,得到若干个类别分布比较均衡的训练集,然后在新的训练集上进行训练。实验显示,类别均衡法简单有效,无需对小类别的训练样本重新采集扩充,只需对训练集进行重组处理,就可以显著提高分类性能。
6.本文设计并实现了一个网站资源自动分类系统,该系统使用了本文提出的基于类别分布的特征权重计算方法和基于抗体浓度的克隆选择分类算法。结合实际应用,采集了一个较大规模的新浪数据集,包含15个类别,17445篇文档,并在这个数据集上进行了实验。实验结果显示,该系统在同等类别的系统中处于相对领先的地位。