论文部分内容阅读
近年来,互联网已经成为广告业的一个重要媒体途径。如今很多互联网门户网站与搜索引擎(例如Google,Yahoo,百度等)均已成为重要的广告提供者之一。在互联网广告中,搜索广告(Sponsored Search)是一个被普遍使用的模式。在搜索广告的模式中,搜索引擎将推荐的广告与用户的查询结果同时显示。所显示的广告如与用户需求相关,则有较大的概率被点击,从而提高了用户的满意度,同时增加了广告商与门户网站的广告收益。广告数据具有其自身的特殊性。相比于普通的文本数据,广告数据所包含的文本信息短少,其中一些竞价词出现的频率很低。单纯的文本匹配方法直接地根据文本包含关系返回结果,使得很大部分与用户需求相关的广告会因没有包含特定的关键字而不能被搜索引擎返回,导致了搜索引擎返回结果数量的严重不足。因此广告的搜索问题与传统的文本搜索问题有很大的区别。现今的搜索引擎提供了更复杂的技术,例如对关键字的聚类、扩展以及对用户查询的改写等,以返回更多符合用户需求的广告。然而这些复杂技术的使用,同时也对搜索引擎及其索引结构的效率提出了更高的要求。本文主要基于搜索广告的互联网广告模式,提出了适合广告数据特性的分块索引结构。通过统计、分析广告数据中竞价词的出现与分布规律,并结合竞价词的聚类信息对广告文本数据的索引结构进行研究和设计。此索引结构改进了传统的倒排索引,将竞价词的聚类信息编码,并将其作为索引词项。根据竞价词之间的相关关系决定其在索引中的存储方式,使得搜索引擎可以支持更加高效的查询扩展操作。同时设计了相应的结果排序机制,使搜索引擎能够在所返回的结果中选择更加相关的广告显示给用户。相比于目前的广告搜索系统,本文针对广告数据的特点提出了分块索引结构的设计,其将广告本文数据的索引与竞价词的层次化聚类结果相结合。本文中的实验结果表明所提出的分块索引结构可以高效地支持用户查询扩展操作,从而增加了搜索引擎能够返回的相关结果数量,证实了分块索引对广告搜索问题的适用性及有效性。