基于网页内容的上下文广告系统中关键词抽取的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：bendehen123

【摘要】

：

互联网已经成为了最重要的广告媒介，它颠覆了传统的广告模式，吸引了众多的网络广告投资，从而也无形中带动了互联网的发展。关于这一领域的研究，主要是各大商业搜索引擎公司在开展

【作者】

：

王明

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2010年期

【关键词】

：

上下文广告网页分块正文抽取关键字提取广告结果排序 SVM训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网已经成为了最重要的广告媒介，它颠覆了传统的广告模式，吸引了众多的网络广告投资，从而也无形中带动了互联网的发展。关于这一领域的研究，主要是各大商业搜索引擎公司在开展，现在市场上比较成功的系统，比如Google的Ad Sense，Yahoo的publisher network等等。由于其商用性，这些系统对外缺少透明性，但是究其根本，都是基于文本的广告系统。　　本文尝试探索这个领域，研究基于网页内容的在线广告系统方面的工作，展示系统的最终效果。　　首先论述网页的抓取和网页预处理操作，对此做简单介绍。　　其次研究在网页正文抽取方面的工作，网页正文抽取的准确性会很大程度上决定后续处理精度，本节首先论述了3种方法，他们各有优缺点。在本系统中，由于是针对同一类型的网站，因为它们的网页构成是基于同一套模板，所以采用了精度最高的基于DOM树模板的方法来抽取正文。　　随后主要研究网页正文内容的关键字抽取问题。目标是尽量的准确的抽取出网页正文的关键词，使得这些关键词能够最精确的刻画网页的内容，在此基础上，尽量的偏向广告关键词，这样可以在后续的广告引擎中查询与网页内容最为匹配的广告。本节首先提出了TF-IDF的概念，随后提出了一种基于朴素贝叶斯模型的关键词抽取的方法，然后详细介绍系统的实现，并针对每一个关键词，提出了近40维的features用于刻画它，这使得本系统的关键词抽取在精度上有了保证。　　接着，研究了一下广告系统的框架。并对其各个模块做了一定的分析，以及实现时候的注意事项。　　

其他文献

非线性光学材料钒硼酸钠、溴硼酸钾及四水合硼酒石酸锶铵的研究

本文以新型复合硼酸盐非线性光学材料钒硼酸钠、溴硼酸钾及四水合硼酒石酸锶铵为主要研究内容，开展了对其合成、晶体生长、结构及性能等的研究。主要工作及结果如下：　　 1.通

学位

论英语电影在中学英语教育中的应用

摘要：针对目前中学英语教学效果不理想的状况，本文提出在教学中使用英文电影进行辅助教学的思路。文章阐明了电影教学的作用和优点，也就如何选择适合的教学影片进行分析。对于如何进行有效的课堂活动，文章列出了常用的课堂活动形式，并对活动的操作方法也作了相应说明。　　关键词：中学教育；英语教学；电影教学　　中图分类号：G632.0 文献标识码：A 文章编号：1992-7711（2016）05-0024　　随着

期刊

中学教育英语教学电影教学

上海光源Low-slpha光学模式的设计

上海同步辐射光源(ShanghaiSynchrotronRadiationFacility,SSRF)是第三代中能(3.5Gev)同步辐射装置,其同步辐射脉冲长度为13ps。为了使其能产生相干同步辐射(CSR)以及短硬X射

学位

Li含量对Mg?xLi?3(Al?Si)合金显微组织和力学性能的影响

基于 α-Mg、α-Mg+β-Li和 β-Li三种相结构,制备Mg?4Li?3(Al?Si)、Mg?8Li?3(Al?Si)和Mg?12Li?3(Al?Si)三种合金,用于研究Al?Si共晶体对其组织和力学性能的影响.在Mg?xLi(x=

期刊

Mg?Li合金Al?Si共晶体第二相抗拉强度伸长率

电荷泵锁相环电路的设计与分析

在各种通信系统和数据传输系统中，锁相环电路都是其中不可或缺的组成模块，锁相环电路的性能在很大程度上决定了系统的性能。正是由于其应用的广泛性和重要性，锁相环电路成为近年

学位

USB2.0收发器电荷泵锁相环电路参考杂散动态带宽相位噪声

电力系统自动化技术安全管理

本文通过对荣华二采区10

期刊

生物法净化甲醛废气技术的应用基础研究

甲醛是一种生产量大，用途广泛，毒性强的大气污染物。随着人民生活水平的不断提高，人们愈加关注日常衣食住行的安全性，寻求更有效净化甲醛的方法也成为相关研究工作者关注的重点。

学位

生物法甲醛废气净化生物反应器生物膜填料塔动力学模型

紫茎泽兰(Eupatorium adenophorum)叶面链格孢菌(Alternaria)和炭疽菌(Colletotrichum)遗传多样性研究

紫茎泽兰入侵对我国生物多样性产生严重危害，利用高效特异的真菌来防治紫茎泽兰入侵具有广阔的应用前景。以往人们研究工作主要集中于从国外引入菌株或对少数本地菌株进行研究

学位

紫茎泽兰叶面病斑真菌链格孢菌炭疽菌遗传多样性

周期结构异向介质的数值计算方法及其特性研究

异向介质（也称“左手介质”，或“双负介质”）是一种等效介电常数和磁导率同时为负数的新型人工电磁材料，具有一系列超常规的电磁特性和广泛的应用。本文围绕当前异向介质研究领域

学位

多类型光纤传感系统及信号处理关键技术研究

光纤传感系统的接入扩容、传感器增敏和传感距离延伸是当前光纤传感技术的核心议题之一。光纤激光传感系统、干涉式光纤传感系统和分布式光纤传感系统在构建大容量、长距离、

学位

光纤传感系统信号处理相位生成载波解调算法相干探测相位敏感型光时域反射计f-x域预测滤波小波变换

基于网页内容的上下文广告系统中关键词抽取的研究

与本文相关的学术论文