基于日志分析的信息检索技术研究与实现

被引量 : 0次 | 上传用户:wcd_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的爆炸式增长,搜索引擎已经成为互联网用户进行信息检索和过滤的主要工具,其重要地位日益明显。然而,搜索引擎在对海量的互联网信息进行检索的时候,尚不能很好的满足用户的检索需求,时常返回与用户检索意图无关的检索记录,致使检索效率较低。本文结合中文检索中检索词本身及其使用方式的问题,阐述了基于查询扩展的信息检索技术的意义。随后,本文结合用户的搜索行为特征,依据检索词之间的相似度关系对搜索日志的分析过程进行建模,并将日志分析的结果应用于本文改进的查询扩展模型中,以期解决检索词简短、语义模糊时,检索结果质量较差的问题。主要包括以下三个方面:1、基于检索行为的日志分析模型。由于传统HTTP会话模型时间跨度较大,一次会话中往往包含多个检索主题。本文从用户的检索行为切入分析,依据检索词之间的相似度对HTTP会话进行切分,并根据本文定义的会话相似度进行会话聚合。随后,通过对实际的搜索日志进行分析,证明了基于检索行为的日志分析模型更适合搜索日志中潜在用户反馈的提取。2、查询扩展方法研究。本文首先讨论并对比当前主要的查询扩展方法,进而考虑到历史检索词是用户检索意图的体现,网页文档的索引用词是搜索引擎对网页文档的定位,本文改进的查询扩展方法将二者依照词频概率进行关联,关联后的结果集作为扩展词来源。同时,文中还分析了扩展词之间的权重分配问题。实验证明文中的查询扩展方法较其它方法有着更高的查准率。3、基于Nutch的原型系统设计与实现。本文在Apache软件基金会开源项目Nutch的基础上,实现了查询扩展模块,改进了Nutch的分词器。查询扩展模块的主要任务是依据扩展词词典对原始检索词进行扩展;分词器主要改进了Nutch默认的一元分词法,使之更好的支持中文检索。最后,通过实验对比了原型系统和Nutch的分词效果以及首页命中率。本文以实际的搜索日志数据为基础,以提高搜索引擎的检索质量为目标。通过对HTTP会话的切分,过滤搜索日志中的无关数据,从而对搜索日志中潜在的用户反馈信息进行挖掘;在研究了当前主要的查询扩展方法后,对搜索日志中的历史检索词和检索结果的索引用词进行关联,并将关联结果用于查询扩展中。实验证实本文改进的方法取得了较好的效果。本文的最后进行了论文工作的总结,以及后续研究重点的分析。
其他文献
塞缪尔斯教授的《日本大战略与东亚的未来》一书结合国际体系和国内因素,全面、清楚、准确地梳理了日本近代以来围绕着大战略的思想论争和共识演变。在此基础上,进一步厘清塑
阐述了内陆港的概念、功能与当前我国西部地区内陆港建设可能存在的问题,并从内陆港建设的视角出发,研究如何在西部内陆地区进行内陆港建设,使内陆城市能够依托沿海港口更好
介绍了可持续发展及中小企业可持续发展的基本涵义 ,在此基础上 ,以江西为实例 ,分析了江西中小企业可持续发展的必要性和可行性。
经济的迅速发展,生活水平的提高,人们对住房的要求的提高,城市人口的增加,城市用地的紧张等因素促使城市高层建筑的增加。但是高层建筑的结构体系越来越多样化,高层建筑结构
<正>缘起:驳斥伊势专一郎"这个问题—中国古代山水画史问题—的所以提出并有可能从事初步的研究,是由于对顾恺之的一篇文章—《画云台山记》的获得初步解决开始的。在这之前,
<正> 中国现代历史上的著名人物戴季陶,在今天已很少为人提及,即便在识者当中,大约也仅知道他早年曾追随孙中山,信仰三民主义,后来堕落为国民党的右派,充当了蒋介石的谋士。
叙述了我国旅游网站即政府旅游部门网站、ISP网站、专业旅游网站、企业自建网站、ICP网站等蓬勃发展现状,指出当前普遍存在的旅游网站信息库重复建设,信息内容缺乏统一标准,
新时代背景下,人们生活中更多的是想要得到精神上的满足,看电视、听广播是丰富精神生活的常见方式。虽然随着网络技术的快速发展,网络媒体开始迅速占据媒体市场。但是广播电
贵州省是以喀斯特山地为特征的经济欠发达地区,依靠山地资源特色发展山地户外健康运动,吸引国内外向往健康的人群来此体验,不仅体验者强健了身体,也带动了环城郊乡村人民的经
在英国小说史上,班扬的经典力作《天路历程》无疑具有举足轻重的地位。作为英国第一部影响巨大的宗教小说,班扬的《天路历程》开创性地塑造了令人耳目一新的寓言人物形象。作者