论文部分内容阅读
互联网时代,搜索引擎面临着巨大的压力,不仅由于每天新增的网页以数以万计的速度在增长,而且还因为许多网站经营者通过各种非法手段骗取搜索引擎的高排名。如何能够从浩瀚的网络海洋中获取准确的信息,过滤不健康、非法以及无用的信息成为当下互联网研究的又一个热点。目前研究的重点主要集中于过滤无用的信息,而没有考虑到其中混杂的许多不健康及非法的网页。因此结合决策树和贝叶斯算法的文本分类优势,找出一种既能排除单纯骗取高排名的网页,又能过滤传播不健康和非法信息的网页的智能算法成为时事所需。基于以上考虑,本文首先定义了两种垃圾网页,一种是通过一些作弊手段,提升其在搜索引擎索引结果中的排名权重,造成搜索引擎索引结果准确率下降,严重影响搜索引擎的正常使用,这部分网页称之为搜索引擎垃圾网页;另一种是网页中所表达的文本信息是违反道德、法律和文化的垃圾信息,这样的信息可能对社会产生严重的负面影响,这种网页称之为不良信息垃圾网页。无论站在自身或是整个社会的角度,检测并过滤这两种垃圾网页都是搜索引擎现阶段一个重要的任务。通过对垃圾网页检测算法研究现状的分析,本文结合决策树算法(ID3)和贝叶斯算法来对这两种垃圾网页进行过滤。之所以结合使用两种算法,是因为通过实验分析发现,ID3算法虽然对搜索引擎垃圾网页的检测精度非常高,但是却很难捕获到一些与正常网页特征无异的不良信息垃圾网页,使用贝叶斯算法正好可以弥补ID3算法在这方面的不足,这主要是因为朴素贝叶斯分类器对基于内容的文本有很高的分类精度。ID3是一种基于信息增益的分类算法,本身存在许多缺陷和不足,本文针对垃圾网页的特点,提出了一种改进的ID3算法,实验结果显示,新的改进算法不仅提高了分类的准确率,同时也有效降低了特征空间的维数(剪去了许多不必要的分枝,使算法的执行效率更高)。本文还对朴素贝叶斯分类器在垃圾网页检测问题上的基本策略做了许多细节性的改进,并提出了一种基于χ2统计的ASN算法(ASN是属性选择的朴素贝叶斯分类器的缩写),通过实验结果分析,分类效果非常好,检漏率基本控制在8%以内。为了验证结合两种算法的可行性,本文还实现了一个检测系统,该系统对单一类垃圾网页的检测精度达到(72±1.5)%,对于两种垃圾网页的同时检测精度达到(75±0.85)%,对两种垃圾网页的同时检测精度相比目前正在使用的过滤器提升效果非常明显。