论文部分内容阅读
本文围绕非均衡文本分类中的关键性问题——非均衡文本分类特征选择展开研究论述,结合文献调研,总结出非均衡文本分类特征选择的特殊性和亟待解决的难题就是要在不降低整个文本数据集上分类效果的前提下,通过特征选择提高在小类别上的分类精度。文中主要对两种适合非均衡文本特征选择的算法(DFICF算法和类条件MI算法)进行具体分析,总结各自算法的优点,同时指出存在的不足:1.DFICF算法一方面重点考虑到高频词条的DF值较高,能够保证整个数据集上携带较多文本信息的大多数高频词条被选进特征子集,另方面考虑到非均衡文本集中小类别文本数量少的问题,引入ICF评价指标,使得特征选择算法也倾向于那些小类别中的低频词条。DFICF算法平衡了既要选高频词条又要选低频词条之间的矛盾。但是,DFICF算法本身受到训练文本集的类别数目和类别间数量分布的约束,对训练文本集文本总量、类别间分布情况和类别总数数量上变化是敏感的。2.类条件MI算法不仅考虑了训练样本的类别分布状况,将类别因素考虑进去,而且考虑了特征出现时训练样本的分布状况。该方法能够改善样本分布不均匀对互信息的影响。该特征选择算法,计算复杂度较高。当要计算某个特征与每个类别的相关度的时候,如果不同类别间的文本数量处于不同数量级的时候,p(cj)和p(cj|ti)的差异也很大。这样的特征选择方案试图牺牲整体的分类精度来提高局部的分类精度。文中另一个研究重点在于针对已有的非均衡特征选择算法的不足,提出改进意见,综合三方面因素形成TIM新算法。TIM算法建立在互信息特征选择算法基础上,保留互信息特征选择算法倾向于低频词条的特点,同时加入TF和ICF两个因素,旨在防止互信息特征选择过度倾向低频词条导致分类算法过度学习。实验表明,TIM特征选择算法的分类效果较-DFICF算法在小类别样本上分类的F1值有明显提高;同时在整个文本集上分类效果的macro-F1值较标准的MI算法、DFICF算法以及类条件MI算法有一定的提高。