面向广告搜索的高效索引结构

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zliang_1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网已经成为广告业的一个重要媒体途径。如今很多互联网门户网站与搜索引擎(例如Google,Yahoo,百度等)均已成为重要的广告提供者之一。在互联网广告中,搜索广告(Sponsored Search)是一个被普遍使用的模式。在搜索广告的模式中,搜索引擎将推荐的广告与用户的查询结果同时显示。所显示的广告如与用户需求相关,则有较大的概率被点击,从而提高了用户的满意度,同时增加了广告商与门户网站的广告收益。广告数据具有其自身的特殊性。相比于普通的文本数据,广告数据所包含的文本信息短少,其中一些竞价词出现的频率很低。单纯的文本匹配方法直接地根据文本包含关系返回结果,使得很大部分与用户需求相关的广告会因没有包含特定的关键字而不能被搜索引擎返回,导致了搜索引擎返回结果数量的严重不足。因此广告的搜索问题与传统的文本搜索问题有很大的区别。现今的搜索引擎提供了更复杂的技术,例如对关键字的聚类、扩展以及对用户查询的改写等,以返回更多符合用户需求的广告。然而这些复杂技术的使用,同时也对搜索引擎及其索引结构的效率提出了更高的要求。本文主要基于搜索广告的互联网广告模式,提出了适合广告数据特性的分块索引结构。通过统计、分析广告数据中竞价词的出现与分布规律,并结合竞价词的聚类信息对广告文本数据的索引结构进行研究和设计。此索引结构改进了传统的倒排索引,将竞价词的聚类信息编码,并将其作为索引词项。根据竞价词之间的相关关系决定其在索引中的存储方式,使得搜索引擎可以支持更加高效的查询扩展操作。同时设计了相应的结果排序机制,使搜索引擎能够在所返回的结果中选择更加相关的广告显示给用户。相比于目前的广告搜索系统,本文针对广告数据的特点提出了分块索引结构的设计,其将广告本文数据的索引与竞价词的层次化聚类结果相结合。本文中的实验结果表明所提出的分块索引结构可以高效地支持用户查询扩展操作,从而增加了搜索引擎能够返回的相关结果数量,证实了分块索引对广告搜索问题的适用性及有效性。
其他文献
随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微
V网伴侣(VPMN Partner)是一款面向企业用户的统一通信(Unified Communication)业务,并与传统的VPMN业务(virtual private mobile network,移动虚拟专网业务)融合。V网伴侣业
利用GPS载波相位进行载体姿态测量是近几年来新发展起来的一项GPS应用技术,具有全天候、精度高、无需对准、无累计误差、成本低等优点,正越来越多的应用于航天、航海等行业并逐
学位
随着互联网的普及,垃圾邮件的泛滥在严重干扰了人们的正常工作和生活的同时消耗了大量的带宽资源。传统的反垃圾邮件的方案例如设置过滤规则或者对邮件地址应用黑名单或白名
由于通信及网络技术的发展,网络数据呈现海量特征。如何从浩如烟海的信息数据中找到自己需要的信息,是目前亟待解决的一大问题。网页自动分类技术可以使信息组织更加条理,富有层
学位
零空闲流水线调度问题是一种典型的调度问题,它具有广泛的工程应用背景。和声搜索是最近出现的一种智能优化算法。与传统进化算法相比,具有结构简单、容易实现、数学理论要求
手势是一种自然、直观、易于学习的人机交互手段。利用计算机识别和解释手势输入是将手势应用于人机交互的关键前提。本文的手势的实时输入可以进一步分为两个步骤:对于已定义
无线传感网络(WSN)是由部署在监控区域内的大规模传感器节点组成的,为安全监控、过程控制、农作物观察以及医学监控和诊断等领域提供不同功能的自组织网络系统。与传统应用开
生产调度问题的研究具有重要的理论意义和工程价值。近年来,智能优化算法成为解决此类问题的主要方法。差分进化算法和人工蜂群算法是新发展起来的两种智能算法,具有结构简单
随着计算机网络规模的扩大及网络攻击行为的泛滥,网络安全成为一个倍受关注的焦点,并成为国家安全的重要组成部分。入侵检测作为保护网络安全的重要技术手段,正受到越来越多