论文部分内容阅读
商务搜索广告是在线广告中最主要的一种表现形式,即搜索引擎根据用户的查询请求将广告投放在结果页面,然而用户提交的请求一般都比较简短,经常会出现错别字,而且用户的查询是为了更好地获取相关的网页查询结果而设计的,而不是为了获取相关的广告。另外广告商提供的广告所包含的信息也非常有限,广告商所设定的广告的标题和描述主要用来吸引用户的眼球,而不是去“迎合”用户的查询,致大部分广告的表述不符合语法规则、出人意料,这使得搜索引擎返回与查询相关的广告变得十分困难。为了解决广告检索困难的问题,越来越多的研究人员通过不同的方式将查询扩展技术应用到计算广告学中。由于广告的信息量受限、不符合语法规则因素,使用广告集合本身来作为查询扩展资源的效果会存在一定限制。一些研究人员尝试采用网页查询结果作为外部扩展源,利用TF、TFIDF等特征来进行扩展词挖掘,虽然取得了一定效果,但无法很好地消除扩展词的噪音成分。在利用网页查询结果作为广告查询扩展的外部扩展资源基础上,为了更好地消除扩展词的噪音成分,提高广告检索效果。本文首先将基于词共现统计的扩展词挖掘方法应用于广告查询扩展中,传统的TF、TFIDF等方法主要通过频率来进行候选扩展词的筛选,无法很好地将语义信息考虑进来,而基于词共现的方法能充分挖掘网页查询结果中的语义资源,筛选出更能表达用户查询意图的扩展词。由于网页查询结果在质量上有高低之分,而且网页查询结果包含的标题、摘要等域在重要性上也有所不同,在传统的Rocchio扩展形式中,我们引入了域相关性因子,用来控制不同域的质量对候选扩展词选择带来的影响,提出了基于多域的广告查询扩展框架,在实际应用中,此框架非常灵活,其中域相关性因子可以由不同方法得到,每个域的特征也可以由不同方法表示。在互联网真实的广告数据集上实验显示,基于词共现和基于多域的广告查询扩展方法能够有效减少候选扩展词中的噪音成分,提高广告检索效果。