论文部分内容阅读
互联网已经成为了最重要的广告媒介,它颠覆了传统的广告模式,吸引了众多的网络广告投资,从而也无形中带动了互联网的发展。关于这一领域的研究,主要是各大商业搜索引擎公司在开展,现在市场上比较成功的系统,比如Google的Ad Sense,Yahoo的publisher network等等。由于其商用性,这些系统对外缺少透明性,但是究其根本,都是基于文本的广告系统。 本文尝试探索这个领域,研究基于网页内容的在线广告系统方面的工作,展示系统的最终效果。 首先论述网页的抓取和网页预处理操作,对此做简单介绍。 其次研究在网页正文抽取方面的工作,网页正文抽取的准确性会很大程度上决定后续处理精度,本节首先论述了3种方法,他们各有优缺点。在本系统中,由于是针对同一类型的网站,因为它们的网页构成是基于同一套模板,所以采用了精度最高的基于DOM树模板的方法来抽取正文。 随后主要研究网页正文内容的关键字抽取问题。目标是尽量的准确的抽取出网页正文的关键词,使得这些关键词能够最精确的刻画网页的内容,在此基础上,尽量的偏向广告关键词,这样可以在后续的广告引擎中查询与网页内容最为匹配的广告。本节首先提出了TF-IDF的概念,随后提出了一种基于朴素贝叶斯模型的关键词抽取的方法,然后详细介绍系统的实现,并针对每一个关键词,提出了近40维的features用于刻画它,这使得本系统的关键词抽取在精度上有了保证。 接着,研究了一下广告系统的框架。并对其各个模块做了一定的分析,以及实现时候的注意事项。