基于网页查询结果的广告查询扩展研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fengliguo1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商务搜索广告是在线广告中最主要的一种表现形式,即搜索引擎根据用户的查询请求将广告投放在结果页面,然而用户提交的请求一般都比较简短,经常会出现错别字,而且用户的查询是为了更好地获取相关的网页查询结果而设计的,而不是为了获取相关的广告。另外广告商提供的广告所包含的信息也非常有限,广告商所设定的广告的标题和描述主要用来吸引用户的眼球,而不是去“迎合”用户的查询,致大部分广告的表述不符合语法规则、出人意料,这使得搜索引擎返回与查询相关的广告变得十分困难。为了解决广告检索困难的问题,越来越多的研究人员通过不同的方式将查询扩展技术应用到计算广告学中。由于广告的信息量受限、不符合语法规则因素,使用广告集合本身来作为查询扩展资源的效果会存在一定限制。一些研究人员尝试采用网页查询结果作为外部扩展源,利用TF、TFIDF等特征来进行扩展词挖掘,虽然取得了一定效果,但无法很好地消除扩展词的噪音成分。在利用网页查询结果作为广告查询扩展的外部扩展资源基础上,为了更好地消除扩展词的噪音成分,提高广告检索效果。本文首先将基于词共现统计的扩展词挖掘方法应用于广告查询扩展中,传统的TF、TFIDF等方法主要通过频率来进行候选扩展词的筛选,无法很好地将语义信息考虑进来,而基于词共现的方法能充分挖掘网页查询结果中的语义资源,筛选出更能表达用户查询意图的扩展词。由于网页查询结果在质量上有高低之分,而且网页查询结果包含的标题、摘要等域在重要性上也有所不同,在传统的Rocchio扩展形式中,我们引入了域相关性因子,用来控制不同域的质量对候选扩展词选择带来的影响,提出了基于多域的广告查询扩展框架,在实际应用中,此框架非常灵活,其中域相关性因子可以由不同方法得到,每个域的特征也可以由不同方法表示。在互联网真实的广告数据集上实验显示,基于词共现和基于多域的广告查询扩展方法能够有效减少候选扩展词中的噪音成分,提高广告检索效果。
其他文献
随着信息技术的不断发展,嵌入式系统联网应用变得十分普及。目前,IP网络及其应用正处于IPv4向IPv6过渡时期,由于IPv6不是向下兼容的,因此IPv4网络应用不能直接过渡到IPv6环境中。
随着目标检测技术的深入研究,目标检测技术的发展呈现出一种由难及易的趋势,从一开始考虑到目标在图像中呈现的形态变化、角度变化等,早期的研究者希望寻找到这样一类特征,它具有
随着信息2.0时代的到来,互联网的飞速发展使得人们获取信息的方式越来越容易,用户在面对海量的数据难以快速而准确的检索到对自己有用的信息,即信息过载问题。个性化推荐系统
目前,在农产品的感官评估领域,缺乏对评价员主观评估结果综合分析的方法,并且从调查问卷的设计、数据获取到数据分析、结果展示等工作大都停留在人工实现上,对人力资源造成很
本文对无线光通信中自适应语音补偿编码进行了研究,提出了一种适用于无线光语音通信的自适应补偿编码方案。并进行了实验测量,证明系统可行。文中针对无线光通信的语音质量评
地理信息系统自从问世以来就备受注目,在短短几十年内就得到了飞速发展和广泛普及。当然,这与计算机技术的发展和因特网在全球范围内的推广也是密不可分的。现如今P2P技术作为
COBOL语言出现于上世纪50年代末,应用于商业领域,是一种面向数据处理、文件输入输出的过程语言。随着计算机技术的迅速发展,各种高级语言如C、 C++、Java不断出现,使得COBOL
近年来,运动捕获技术的日益成熟和广泛使用产生了大量的三维运动数据,这些数据已被越来越广泛地应用在计算机动画、电影制作和3D游戏等领域。然而,三维人体运动数据有两个备
相机平台的移动或震动导致低分辨率图像序列之间的移动,即不受控制的微扫描。超分辨率方法正是利用此低于单像素(sub-pixel)的微运动来增强图像的分辨率。超分辨率问题是一个
归并比较评测方法是一种有效的比较两个搜索引擎结果质量优劣的评测方法。本文对在这类方法中考虑用户收益的方式进行了深入的研究,主要贡献包括以下三个方面:1)本文提出了基于