基于决策树和贝叶斯算法的垃圾网页检测的研究和实现

被引量 : 6次 | 上传用户：momoww

【摘要】

：

互联网时代，搜索引擎面临着巨大的压力，不仅由于每天新增的网页以数以万计的速度在增长，而且还因为许多网站经营者通过各种非法手段骗取搜索引擎的高排名。如何能够从浩瀚的网络

【作者】

：

邱齐辉

【发表日期】

：

2012年01期

【关键词】

：

Web spam 垃圾网页检测 ID3算法朴素贝叶斯分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网时代，搜索引擎面临着巨大的压力，不仅由于每天新增的网页以数以万计的速度在增长，而且还因为许多网站经营者通过各种非法手段骗取搜索引擎的高排名。如何能够从浩瀚的网络海洋中获取准确的信息，过滤不健康、非法以及无用的信息成为当下互联网研究的又一个热点。目前研究的重点主要集中于过滤无用的信息，而没有考虑到其中混杂的许多不健康及非法的网页。因此结合决策树和贝叶斯算法的文本分类优势，找出一种既能排除单纯骗取高排名的网页，又能过滤传播不健康和非法信息的网页的智能算法成为时事所需。基于以上考虑，本文首先定义了两种垃圾网页，一种是通过一些作弊手段，提升其在搜索引擎索引结果中的排名权重，造成搜索引擎索引结果准确率下降，严重影响搜索引擎的正常使用，这部分网页称之为搜索引擎垃圾网页；另一种是网页中所表达的文本信息是违反道德、法律和文化的垃圾信息，这样的信息可能对社会产生严重的负面影响，这种网页称之为不良信息垃圾网页。无论站在自身或是整个社会的角度，检测并过滤这两种垃圾网页都是搜索引擎现阶段一个重要的任务。通过对垃圾网页检测算法研究现状的分析，本文结合决策树算法(ID3)和贝叶斯算法来对这两种垃圾网页进行过滤。之所以结合使用两种算法，是因为通过实验分析发现，ID3算法虽然对搜索引擎垃圾网页的检测精度非常高，但是却很难捕获到一些与正常网页特征无异的不良信息垃圾网页，使用贝叶斯算法正好可以弥补ID3算法在这方面的不足，这主要是因为朴素贝叶斯分类器对基于内容的文本有很高的分类精度。ID3是一种基于信息增益的分类算法，本身存在许多缺陷和不足，本文针对垃圾网页的特点，提出了一种改进的ID3算法，实验结果显示，新的改进算法不仅提高了分类的准确率，同时也有效降低了特征空间的维数(剪去了许多不必要的分枝，使算法的执行效率更高)。本文还对朴素贝叶斯分类器在垃圾网页检测问题上的基本策略做了许多细节性的改进，并提出了一种基于χ2统计的ASN算法(ASN是属性选择的朴素贝叶斯分类器的缩写)，通过实验结果分析，分类效果非常好，检漏率基本控制在8%以内。为了验证结合两种算法的可行性，本文还实现了一个检测系统，该系统对单一类垃圾网页的检测精度达到(72±1.5)%，对于两种垃圾网页的同时检测精度达到(75±0.85)%，对两种垃圾网页的同时检测精度相比目前正在使用的过滤器提升效果非常明显。

其他文献

基于改进遗传算法的航空发动机故障诊断专家系统

航空发动机被认为是飞行器的最重要的组成部分，其稳定性决定着飞行任务的完成质量。随着现代航空技术的发展，航空发动机性能不断提高，对结构强度和工作条件的要求日益增加，导致航

学位

航空发动机故障诊断遗传算法专家系统VBMATLAB

傅立叶变换红外光谱法快速测定葡萄酒理化指标

葡萄酒是一种广泛受到消费者欢迎的饮品。近几年，我国葡萄酒行业呈现高速发展态势，生产量和消费量均逐年递增。在生产、运输和分装过程中对葡萄酒理化指标的检测直接关系到消费

学位

葡萄酒傅立叶变换红外光谱还原糖总酸pH酒精度苹果酸挥发酸

艺术政治学的乌托邦——关于马尔库塞的《审美之维》

马尔库塞批判了正统马克思主义美学将艺术内容与形式割裂开来、将内容凌驾于形式之上的美学方法。他认为艺术的价值存在于"审美形式"——即形式和内容相结合的整体中,不过最

期刊

西方马克思主义艺术自律审美形式艺术政治学

大型LNG储罐承台的有限元分析

液化天然气(LNG)是一种清洁优质的能源,作为重要的战略能源被各国所储备。LNG储罐作为接收站的主要设备之一,在世界范围被广泛应用。由于我国未掌握大型LNG储罐的核心技术,因

学位

LNG储罐承台地震作用风荷载动力响应有限元分析

基于保偏光纤分布式和光纤光栅分立式的双层异构光纤传感网的初步研究

光纤传感网是将光纤传感器或传感子系统以一定拓扑结构构成的网络,以智能传感为特点的新一代光纤传感网及其关键器件研究成为未来光纤传感技术的发展方向,在国家安全、重大工

学位

光纤传感网保偏光纤光纤光栅异构性自愈性

2型糖尿病大鼠模型GLUT4mRNA表达的研究

目的:研究葡萄糖转运体4(GLUT4)mRNA表达在2型糖尿病胰岛素抵抗中的分子机制。方法:采用高脂高糖饲养,一次性腹腔注射链脲佐菌素(STZ)制备2型糖尿病大鼠模型。逆转录聚合酶链

期刊

单糖转运蛋白质类糖尿病2型逆转录聚合酶链反应肌骨骼心肌脂肪组织

独活寄生汤对膝骨关节炎患者Wnt/β-catenin-BMP信号通路调控作用的临床研究

目的:观察独活寄生汤治疗前后膝骨关节炎患者Wnt5a、β-catenin、BMP-2 mRNA表达的变化,探讨独活寄生汤对膝骨关节炎的作用机制。方法:42例膝骨关节炎患者,予独活寄生汤治疗1

期刊

骨关节炎膝/中医药疗法独活寄生汤/治疗应用基因表达人类

不同分子亚型乳腺癌的临床特点和预后分析

目的：分析乳腺癌四种主要分子亚型的临床特点及其预后，以指导乳腺癌的个体化治疗。方法：对356例确诊的乳腺癌患者资料进行回顾性分析，根据免疫组织化学方法检测的雌激素受体（ER）、

学位

乳腺肿瘤分子分型临床特点预后

供应链与供应链竞争下成本扰动协调研究

随着科学技术和经济全球化的迅猛发展,企业与企业,供应链与供应链之间的竞争也日益激烈,消费者的需求呈现出多样化的趋势,市场需求的不确定因素也明显增多。在此情形下供应链

学位

供应链竞争成本扰动扰动管理竞争博弈收益共享契约

地方高校旅游管理专业本科毕业生就业问题探讨——以宁波市高校为例

我国高校旅游管理专业本科教育萎缩、旅游管理专业毕业生行业就业率低等现象十分突出。如何对旅游本科教育人才培养模式进行改革和创新已成为高等旅游院系面临的共同问题。本

期刊

地方高校旅游管理专业就业宁波

基于决策树和贝叶斯算法的垃圾网页检测的研究和实现

与本文相关的学术论文