动态Web广告的智能获取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chinafeed
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子商务的发展,目前许多公司都通过Web广告来推广自己的产品,很多大型互联网公司的主要收入来源也来自于Web广告,因此目前对Web广告的研究越来越热门。为了研究互联网广告的投放机制,更加科学的投放广告,收集互联网上的广告就成为一项非常有意义的工作,但是,目前针对互联网广告资源采集的研究却没有什么成果,因此,本文主要研究如何从海量的互联网资源中智能地获取尽可能多的Web广告资源。为了快速准确获取互联网中的广告,本文主要做了如下几个工作:首先,提出了一种基于DOM树构建的动态脚本解析算法,在建立页面DOM树的过程中,使用文中所设计的基于Rhino封装后的Javascript解析引擎,解析Web页面中的Javascript脚本,加载页面中的动态数据,最终得到加载完动态信息的完整页面。基于DOM树构建的解析算法在请求动态数据的时候进行了合理的资源分配,因此在解析速度方面比其它动态数据获取方式要快。在章节的最后,通过实验和其它的动态数据获取方式进行了比较,实验证明,算法的速度比其它的方式快。然后,设计了基于页面块分类的Web广告资源定位算法,将页面中广告资源的定位问题转化为二分类问题,在页面分块的基础上,对页面中所有的块进行广告块分类,通过标记其中的广告块,最终实现了广告资源定位的功能。基于页面块分类的广告定位算法,使用页面中的URL串作为分类的特征,拥有分类速度快,准确度高等特点。在章节的后面,对比了几种常用的分类算法在广告定位上的效果,此外,还给出了基于决策树分类的广告定位算法在各种类型的网站上所表现出来的效果,实践证明,基于决策树的广告资源定位算法效果比其它的算法的效果好。最后,实现了动态Web广告的智能获取系统,用系统的实际效果验证了本文所提方法的有效性。
其他文献
联机分析处理(OLAP,On-Line Analytical Processing)技术用于支持复杂分析操作、侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂
随着企业建模、工作流概念的出现以及相关技术的发展,Petri网因其既有严格的形式定义,又有直观的图形表示,既有丰富的系统描述手段和系统行为分析技术,又为计算机科学提供坚实的
在当代计算机系统中,处理器速度远远高于存储器的速度。Cache技术是提高数据访问性能的经典技术,做为它们二者之间的重要的桥梁,已经在计算技术的多个方面得到了成功的应用,在计
随着科学技术的不断发展革新与推广应用,企业整个生产系统的集成化程度越来越高,对数字化信息处理技术的要求越来越多。目前国内核仪表(主要指化工、水泥、电力行业用仪表)电路
随着计算机网络教育技术的发展,网络化考试将逐步取代传统的基于纸笔的考试。利用网络实现在线组卷、考试、评分等环节,在一定程度上减少了影响考试的人为主观因素,客观、准确地
随着嵌入式技术的发展,网络语音传输技术在部分领域内开始显现出重要作用,并成为衡量电子设备智能化的一个重要标志。嵌入式网络语音传输系统的开发有助于拓宽嵌入式技术的应用
随着国民经济的迅猛发展,社会对电力的需求与日剧增以及市场机制的引入,现代电力企业也日益面临日趋激烈的市场竞争。研究和开发相应的资产管理系统,对于优化电力企业资源配
《国家中长期科学和技术发展规划纲要(2006-2020年)》实施以来,我国财政科技投入快速增长,科技项目和资金管理不断改进,为科技事业发展提供了有力支撑。同时也给科技项目管理
随着Internet的广泛应用,许多原本独立的设备和系统开始与Internet互联,使越来越多的信息资源共享成为可能。嵌入式系统接入Internet的技术难点在于:如何利用嵌入式系统自身有限
计算机电话集成(CTI,ComputerTelephoneIntegration)技术是计算机网络和传统电话相结合的产物。基于CTI的集成信息系统,对许多企业的经营方式产生了重要的影响,它是实现开放型客