论文部分内容阅读
如何提高用户在使用搜索引擎的同时,对搜索引擎中所显示的广告进行有效的点击,一直被各大搜索引擎公司所关注。每个搜索引擎都有自己所特有的广告显示方式,由于搜索引擎用户存在的个体差异,不同的广告显示方式所带来的广告盈利必然是不同的,而搜索引擎公司对用户点击广告的行为进行监测会产生大量的数据。对如此庞大的数据进行有效的采集,观察,分析,开发出可有效提高广告被点击率的显示方式,提高搜索引擎公司的盈利额,是当今搜索广告领域中激烈竞争的技术领域。针对上述问题与现状,论文拟实现一个可自动采集广告数据并向使用者进行精确数据展示的Dashboard系统,帮助工作人员脱离原先黑白的,枯燥的广告数据采集界面。本文完成的主要工作分为三个部分,分别为:(1)定时的从半结构化数据集中获取数据的流程结构设计与实现,完成服务器的搭建工作,环境的部署和脚本程序的定时运行,使用Shell调用Pig脚本定时的从Hadoop分布式文件系统中对数据进行采集,分类等操作,将最后采集到的数据以文件的形式存储在远端grid服务器上;(2)将获取的数据存储到数据库的本地服务端的设计与实现,也就是将文本形式的数据文件从远端grid服务器上同步到本地的数据服务器上,并在数据文件成功同步的前提下,把数据从文本的形式转化为存储在MySQL数据库中的形式;(3)将存储在数据库中的关键字广告数据进行展示的客户端Web页面的设计与实现,采用当前流行的LAMP网站架构方案,以及Apache, HTML, CSS, JavaScript等Web技术来完成一系列的前端工作,提供给用户一个可以通过图形,表格等形式来查看数据以及分析数据的界面工具。该采集系统可自动的完成数据采集、分类、存储与展示等一系列工作,并通过色彩丰富的图形进行数据展示和数据分析。使用者可查看大量关键字具体数值,也可以查看特定关键字的某个数值变化趋势,甚至可以提供给使用者批量的数据查询下载的功能,有效的提高了工作人员的工作效率,避免了技术人员的重复劳动,使非专业技术人员也可以方便快捷地获取特定的数据信息。