论文部分内容阅读
互联网技术的飞速发展,将我们带入了数字化、网络化的信息时代。在海量信息中,如何能快速并有效的提取有用信息成为人们研究的重要领域。文本分类技术是文本信息处理领域重要的核心课题,目的是为了对文本进行类别判定,解决信息杂乱问题。在文本分类中,特征选择方法的研究占主导地位。但现实生活中,我们所要处理的数据往往具有一个明显的自然属性——数据不平衡性,即各类别文本的数量差异很大,或者特征分布不均衡等,这都将导致分类器分类性能的下降。因此,如何改进特征选择方法使其更能适应不平衡数据集的分类问题变得十分重要。随着文本分类方法的进一步完善,它也被应用到很多领域,如垃圾博客、垃圾邮件的检测等。自博客在中国迅速发展以来,很多不法商业者利用博客作为恶意推广平台,这就导致了垃圾博客的产生。由于垃圾博客长时间不被处理,造成了网络和存储资源的浪费,同时也给用户使用搜索引擎带来不便,因此对于垃圾博客过滤的研究非常迫切。本文的研究工作主要包括以下两部分: 首先针对传统信息增益特征选择方法的不足,提出了一种基于信息增益特征关联树的文本特征选择算法,以解决其在非平衡数据集上分类性能差的缺点。第一步,对数据集按类进行特征选择,利用特征分布均匀度和特征关联树模型对类内特征进行降维处理,降低特征冗余度,解决类别分布不均衡对特征选择的影响。第二步,使用类间加权离散度作为平衡因子对信息增益公式进行改进,提高特征在类间的信息增益值的精确度,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 其次,本文通过对以往垃圾博客检测技术的研究,结合垃圾博客的网页特征,以及特征选择算法的分析,提出了一种基于改进信息增益的垃圾博客检测算法。第一步,提取测试集中所有博客的URL并建立Abnormal list和Normal list,对博客URL和超链接进行关联特征提取。第二步,根据改进的信息增益算法分别对垃圾博客和正常博客的内容特征进行计算并降序排列,再对每个类别的特征计算互信息值,删除负相关特征。第三步,根据特征比例分别从两个类别特征集中选取特征,组成最优特征子集,进行分类器训练。根据建立的URL表以及博客的关联特征对博客进行首次过滤,然后根据训练的分类器进行再判断,使得垃圾博客过滤的效率大大提高。