基于决策树和贝叶斯算法的垃圾网页检测的研究和实现

被引量 : 6次 | 上传用户:momoww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,搜索引擎面临着巨大的压力,不仅由于每天新增的网页以数以万计的速度在增长,而且还因为许多网站经营者通过各种非法手段骗取搜索引擎的高排名。如何能够从浩瀚的网络海洋中获取准确的信息,过滤不健康、非法以及无用的信息成为当下互联网研究的又一个热点。目前研究的重点主要集中于过滤无用的信息,而没有考虑到其中混杂的许多不健康及非法的网页。因此结合决策树和贝叶斯算法的文本分类优势,找出一种既能排除单纯骗取高排名的网页,又能过滤传播不健康和非法信息的网页的智能算法成为时事所需。基于以上考虑,本文首先定义了两种垃圾网页,一种是通过一些作弊手段,提升其在搜索引擎索引结果中的排名权重,造成搜索引擎索引结果准确率下降,严重影响搜索引擎的正常使用,这部分网页称之为搜索引擎垃圾网页;另一种是网页中所表达的文本信息是违反道德、法律和文化的垃圾信息,这样的信息可能对社会产生严重的负面影响,这种网页称之为不良信息垃圾网页。无论站在自身或是整个社会的角度,检测并过滤这两种垃圾网页都是搜索引擎现阶段一个重要的任务。通过对垃圾网页检测算法研究现状的分析,本文结合决策树算法(ID3)和贝叶斯算法来对这两种垃圾网页进行过滤。之所以结合使用两种算法,是因为通过实验分析发现,ID3算法虽然对搜索引擎垃圾网页的检测精度非常高,但是却很难捕获到一些与正常网页特征无异的不良信息垃圾网页,使用贝叶斯算法正好可以弥补ID3算法在这方面的不足,这主要是因为朴素贝叶斯分类器对基于内容的文本有很高的分类精度。ID3是一种基于信息增益的分类算法,本身存在许多缺陷和不足,本文针对垃圾网页的特点,提出了一种改进的ID3算法,实验结果显示,新的改进算法不仅提高了分类的准确率,同时也有效降低了特征空间的维数(剪去了许多不必要的分枝,使算法的执行效率更高)。本文还对朴素贝叶斯分类器在垃圾网页检测问题上的基本策略做了许多细节性的改进,并提出了一种基于χ2统计的ASN算法(ASN是属性选择的朴素贝叶斯分类器的缩写),通过实验结果分析,分类效果非常好,检漏率基本控制在8%以内。为了验证结合两种算法的可行性,本文还实现了一个检测系统,该系统对单一类垃圾网页的检测精度达到(72±1.5)%,对于两种垃圾网页的同时检测精度达到(75±0.85)%,对两种垃圾网页的同时检测精度相比目前正在使用的过滤器提升效果非常明显。
其他文献
航空发动机被认为是飞行器的最重要的组成部分,其稳定性决定着飞行任务的完成质量。随着现代航空技术的发展,航空发动机性能不断提高,对结构强度和工作条件的要求日益增加,导致航
葡萄酒是一种广泛受到消费者欢迎的饮品。近几年,我国葡萄酒行业呈现高速发展态势,生产量和消费量均逐年递增。在生产、运输和分装过程中对葡萄酒理化指标的检测直接关系到消费
马尔库塞批判了正统马克思主义美学将艺术内容与形式割裂开来、将内容凌驾于形式之上的美学方法。他认为艺术的价值存在于"审美形式"——即形式和内容相结合的整体中,不过最
液化天然气(LNG)是一种清洁优质的能源,作为重要的战略能源被各国所储备。LNG储罐作为接收站的主要设备之一,在世界范围被广泛应用。由于我国未掌握大型LNG储罐的核心技术,因
光纤传感网是将光纤传感器或传感子系统以一定拓扑结构构成的网络,以智能传感为特点的新一代光纤传感网及其关键器件研究成为未来光纤传感技术的发展方向,在国家安全、重大工
目的:研究葡萄糖转运体4(GLUT4)mRNA表达在2型糖尿病胰岛素抵抗中的分子机制。方法:采用高脂高糖饲养,一次性腹腔注射链脲佐菌素(STZ)制备2型糖尿病大鼠模型。逆转录聚合酶链
目的:观察独活寄生汤治疗前后膝骨关节炎患者Wnt5a、β-catenin、BMP-2 mRNA表达的变化,探讨独活寄生汤对膝骨关节炎的作用机制。方法:42例膝骨关节炎患者,予独活寄生汤治疗1
目的:分析乳腺癌四种主要分子亚型的临床特点及其预后,以指导乳腺癌的个体化治疗。方法:对356例确诊的乳腺癌患者资料进行回顾性分析,根据免疫组织化学方法检测的雌激素受体(ER)、
随着科学技术和经济全球化的迅猛发展,企业与企业,供应链与供应链之间的竞争也日益激烈,消费者的需求呈现出多样化的趋势,市场需求的不确定因素也明显增多。在此情形下供应链
我国高校旅游管理专业本科教育萎缩、旅游管理专业毕业生行业就业率低等现象十分突出。如何对旅游本科教育人才培养模式进行改革和创新已成为高等旅游院系面临的共同问题。本