智能Web广告爬虫系统研究

被引量 : 0次 | 上传用户:thinkthinkthink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网越来越深入的影响人们的日常生活,互联网也演变为除电视、报纸外一个非常重要的广告传播媒介。Web广告由于其覆盖面广、交互性强等特质,吸引了众多的广告主在互联网上进行营销。在互联网上投放的广告数据非常之多,收集这些数据是一份很有意义的工作,但是目前却没有针对这些Web广告数据的采集器。本文提出并设计了一个Web广告爬虫系统,专门用来收集互联网中的广告数据。本文主要做了如下三个方面的工作:(1)设计了针对Web广告信息抓取的爬行策略,爬行策略通过计算URL种子的权重来安排URL种子的下载顺序。结合Web广告爬虫系统要抓取的广告对象类型和Web广告的投放方法,提出了已下载页面权重计算方法和种子链接权重计算方法,计算已下载页面权重,结合一些全局统计知识进一步计算种子链接的权重;(2)通过观察和分析大量不同类型网页中的广告数据,设计了针对Web广告信息的抽取方法,用于抽取网页中的广告数据。该方法根据网页中的广告数据呈现出来的局部性和聚集性,利用聚类算法将网页中的所有超链接聚合成超链接块,然后用启发式规则判断链接块的类别性质,如果判断是广告块,抽取广告块中的广告数据;(3)在以上研究成果的基础上设计并实现了一个智能Web广告爬虫系统,该系统从预设的URL种子开始,自动的从互联网中下载网页数据,然后抽取网页中的广告数据。实验结果表明,智能Web广告爬虫系统的爬行策略与广度优先策略和深度优先策略相比,能够更高效的抓取互联网中的广告数据,同时,广告信息抽取算法也能够精准的抽取网页中的广告数据。
其他文献
在经济迅速发展的今天,现金深刻地影响着企业的生存和发展,其对企业的重要性不言而喻,因此“现金至上”的信条备受企业界推崇。然而对于我国大部分企业来说,存在着公司内部治理不
道路交通快速发展,为我们带来便利的同时也引发了大量的交通事故,因此关于道路交通事故侵权责任制度的研究非常有必要。归责原则是确定道路交通事故侵权责任的基本前提,我国道路
目的研究慢性鼻窦炎采用功能性鼻窦内镜术(functional endoscopic sinus surgery,FESS)治疗后不同时间换药对患者疼痛的影响分析。方法选取2018年3月至2019年3月经北京航天总
目的本研究拟对肝硬化合并胆囊结石疾病患者行腹腔镜胆囊切除术和开腹胆囊切除术的试验性研究文章进行meta分析,以期获得最佳证据。方法根据PRISMA指南进行的meta分析,检索1990
目的:观察提督调神针法治疗缺血性脑血管病的临床疗效。方法:选取2008年1月—2013年3月在本院住院治疗的缺血性脑血管病患者121例,所有患者均为脑梗死偏瘫急性期及恢复期患者
文章介绍基于PLC和触摸屏的玻璃清洗机控制系统的设计方案、系统组成、硬件配置和软件结构。硬件主要由S7-300PLC和TP170B触摸屏构成,软件采用STEP7 V5.3应用软件包和WinCC f
传统的基于知识的自动问答(KB-QA)系统面临两个挑战:其一在于将自然语言的句子解析成他们对应的语义表示(Meaning Representation);其二在于如何使用生成的语义表示在知识库中检索
在竞争日益激烈的环境下,制造企业必须能够快速地响应市场需求的变化,可重构制造系统可以达到这一目的。本文从可重构制造系统的定义和特点、可重构制造系统与现有制造系统的
目的:将奥马哈系统引入高血压患者家庭访视,制定高血压患者家庭访视方案并对该方案进行实证研究。方法:1.在大量阅读文献的基础上,以奥马哈系统为理论框架,采用德尔菲专家咨询法,研
为探讨微课在家畜解剖学理论教学中的应用效果,随机选取动物医学专业2个教学班为研究对象,试验组采用微课的课前、课堂和课后全过程应用,对照组采用传统的教学模式。结果表明