论文部分内容阅读
近年来,随着互联网越来越深入的影响人们的日常生活,互联网也演变为除电视、报纸外一个非常重要的广告传播媒介。Web广告由于其覆盖面广、交互性强等特质,吸引了众多的广告主在互联网上进行营销。在互联网上投放的广告数据非常之多,收集这些数据是一份很有意义的工作,但是目前却没有针对这些Web广告数据的采集器。本文提出并设计了一个Web广告爬虫系统,专门用来收集互联网中的广告数据。本文主要做了如下三个方面的工作:(1)设计了针对Web广告信息抓取的爬行策略,爬行策略通过计算URL种子的权重来安排URL种子的下载顺序。结合Web广告爬虫系统要抓取的广告对象类型和Web广告的投放方法,提出了已下载页面权重计算方法和种子链接权重计算方法,计算已下载页面权重,结合一些全局统计知识进一步计算种子链接的权重;(2)通过观察和分析大量不同类型网页中的广告数据,设计了针对Web广告信息的抽取方法,用于抽取网页中的广告数据。该方法根据网页中的广告数据呈现出来的局部性和聚集性,利用聚类算法将网页中的所有超链接聚合成超链接块,然后用启发式规则判断链接块的类别性质,如果判断是广告块,抽取广告块中的广告数据;(3)在以上研究成果的基础上设计并实现了一个智能Web广告爬虫系统,该系统从预设的URL种子开始,自动的从互联网中下载网页数据,然后抽取网页中的广告数据。实验结果表明,智能Web广告爬虫系统的爬行策略与广度优先策略和深度优先策略相比,能够更高效的抓取互联网中的广告数据,同时,广告信息抽取算法也能够精准的抽取网页中的广告数据。