基于代码分析与图像处理的网页广告屏蔽技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：klose123

【摘要】

：

随着互联网的快速发展和日渐流行,网页已经成为人们获取信息的重要来源。网页在给我们提供有用信息的同时,也充斥着各种商业广告,这些广告可能占用系统资源,影响网页内容展示

【作者】

：

汪睿

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

广告屏蔽器代码分析图像处理 DOM树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展和日渐流行,网页已经成为人们获取信息的重要来源。网页在给我们提供有用信息的同时,也充斥着各种商业广告,这些广告可能占用系统资源,影响网页内容展示,诱导用户访问有害网页,影响用户体验,进而降低用户粘滞性。现有的网页广告屏蔽方法是基于过滤规则进行匹配,其核心在于维护过滤规则列表。当前最流行的网页广告屏蔽工具Adblock Plus基于EasyList过滤规则列表来工作,通过网络控制和页面处理的方式来屏蔽广告。基于过滤规则列表广告屏蔽方法能部分缓解广告所带来的困扰,但是这种方法需要根据用户的反馈来持续维护列表,时间成本与人力成本比较高。此外,随着网页随机化技术的出现,基于过滤规则匹配的方法就会失效。另外,由于开发人员在定义元素id或class属性值时可能误使用过滤规则列表中的内容,导致此类方法错误屏蔽正常的网页内容。因此,为了避免维护过滤规则列表时间与人力成本的浪费,减少网页屏蔽工具的误报与漏报率。本文首先通过实证调研了4个类别的200个网页,发掘了真实网页广告区域在网页源代码中的结构,并总结了广告区域中广告标识节点存在的4种形式,然后结合代码分析与图像处理技术,提出了一种通过广告标识屏蔽网页广告的方法,并实现了屏蔽网页广告的工具AdClear。论文的主要工作包括:(1)通过递归处理根据网页HTML代码生成的DOM树方式完成对网页代码的分析。在遍历处理DOM树时,将根据节点类型的不同,分别进行不同的处理。特别地,对于包含图像节点将发送到服务端进行识别。为了减轻服务端的压力,进一步提出了相应的过滤规则,合理的选择节点发送到服务器进行判断。根据实际网页广告区域代码的结构,给出了通过广告标识识别最小广告区域的方法。(2)结合广告标识字符背景颜色变化平滑、字符与背景边界清晰的特点,使用信息熵、Canny算子边缘检测技术对图像进行二值化处理,并使用HOG特征、CNN的方式对二值化图像提取特征。使用SVM和MLP分类模型实现图像文本分类,完成图像广告标识识别。最终,组合使用不同的二值化,提取特征及分类模型技术来完成对图像中的广告标识识别。组合成的三种方法分别为信息熵+HOG+SVM、Canny算子+HOG+SVM 及Canny 算子+CNN。(3)实现了网页广告屏蔽工具AdClear,并通过与Adblock Plus的对比,说明了 AdClear的有效性。在实验部分,通过比较本文提出的三种图像广告标识识别方法的效果,选择了基于Canny算子+HOG+SVM的方法作为图像识别模块的方法。在对网页广告的实际检测中,AdClear相比于Adblock Plus拥有更好的效果,具有99.55%的准确率与96.52%的召回率,显著优于Adblock Plus 62%的准确率和92.34%的召回率。

其他文献

以ZIF-67为前驱体定向合成Co3O4基复合材料及其电催化析氧和储锂性能研究

不可再生化石燃料的大量消耗,给全球带来了严重的能源危机和环境问题,而新型清洁能源转换与储存装置的开发和设计有望解决该问题。电催化析氧反应（OER）是新能源转换和储存中的

学位

Co3O4中空结构ZIF-67析氧反应锂离子电池

Cu和Co对Inconel 718合金Nb偏析及Laves相的影响

Inconel 718合金是时效强化型镍铁铬基高温合金,由于其具有良好的高温抗氧化性、耐蚀性以及热稳定性等高温性能,被广泛应用于航空航天、石油化工以及核能等领域。但是,Incone

学位

Inconel718合金第一性原理计算Nb偏析Laves相Cu掺杂Co掺杂稳定性

糠醛渣木质素分离及热解特性研究

糠醛渣是生物质废弃物中的一种,含有大量纤维素和木质素,若是能够合理的开发和利用糠醛渣,不但能带动该行业的发展,产生相应的经济效益,还可减少环境污染,缓解环境压力。将糠

学位

糠醛渣木质素热裂解Py-GC/MS

释意理论视角下纪录片《创新中国》汉英模拟口译实践报告

《创新中国》是一部讲述中国最近科学技术成就,弘扬创新精神的纪录片,全片共有六集,其对传播中国先进科学技术和提升国家形象有着积极影响。科学技术是第一生产力,是推动人类文明进步的革命力量。而创新为一个国家的繁荣提供了源源不断的动力,使其对未来满怀无限热忱与希望。作者选取《创新中国》的第一集《信息》和第六集《潮起》作为口译材料。这次中译英模拟交替传译实践报告是作者在释意理论指导下完成的,记录了口译过程的

学位

《创新中国》释意理论口译策略科学技术创新

基于能量法的轴承-转子系统动力学建模与振动分析

旋转机械作为最常见的动力源在当今社会使用范围越来越广,其中轴承-转子系统作为旋转机械的重要组成部件,对旋转机械健康服役起着举足轻重的作用。滚动轴承作为重要零部件在

学位

轴承-转子系统动力学建模局部缺陷能量法多盘转子质量分配方法

基于LVDT的汽车零部件检测终端设计

随着汽车行业的快速发展,与汽车息息相关的汽车零部件需求也呈现出指数级的增长。精密检测是影响零部件质量的关键因素。当前,国内对车间自动化检测终端研究较少,特别是低成

学位

线性可变差动变压器ARM处理器检测系统嵌入式LoRa

模拟外星壤的真空烧结性能与激光增材制造试验研究

探索浩瀚宇宙是人类不懈追求的航天梦,月球是地球唯一的天然卫星,而火星具有较大的太空移民潜力。外星基地能够为人类宇宙探索提供关键支撑平台,然而依赖地球资源进行大规模

学位

外星基地资源化利用模拟外星壤真空烧结激光3-D打印

立式行星齿环式抽油机齿环滑块机构的设计

我国是全球发展最快的国家,为全球经济的发展做出了不可估量的贡献。随着全球化以及城市化速度的加快,石油的需求量越来越大了,而且中国现在处于由制造型国家向着创新型国家

学位

齿环滑块机构润滑设计有限元分析模态分析

金线莲菌根真菌的分离、筛选和应用研究

本研究以福建金线莲为材料,对金线莲菌根菌和茎腐病致病菌的分离和鉴定、菌-苗共生体系的建立、菌根菌与金线莲共生体系的显微观察、菌根菌对金线莲抗病性和生长的影响以及金

学位

金线莲菌根菌茎腐病组织培养菌-苗共生体系

基于气泡行为的生物反应器中水力条件影响研究

随着污水排放标准的提高,生物膜技术和好氧颗粒污泥技术因其致密的物理结构、高浓度的生物量、无需污泥回流设备以及有机负荷承载能力强等优点,受到了广泛的关注。处理系统中

学位

生物膜反应器好氧颗粒污泥气泡行为水力剪切湍流耗散功率

基于代码分析与图像处理的网页广告屏蔽技术研究

与本文相关的学术论文