上下文相关的查询推荐算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:shagen_gw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求的搜索结果,是判断搜索性能的关键指标。目前搜索引擎公司和研究人员通过多种方式试图理解用户的搜索目的,生成查询推荐是满足用户意图中很重要的一环。在实际应用中,查询推荐表现为搜索引擎提供的“相关搜索”。传统的生成查询推荐的方法主要通过语义分析、文档内容分析、锚文本研究来产生推荐;近期的方法主要是通过挖掘搜索日志来生成查询推荐。一是利用在同一个session中邻近的或同时发生的查询作为彼此的推荐。这种方法能够有效的提供有意义的查询推荐,但仅考察用户刚提交的查询,没有充分的考虑上下文序列。另一种是上下文相关方法,通过预测后缀树模型来生成查询推荐,但在查询session划分方面存在粒度过大的问题。提高查询推荐的准确性可以提升用户的搜索体验,在个性化搜索、提高用户忠诚度、精准广告投放等方面有很广应用前景。本文具体做了以下方面的工作:1. Session划分研究。为了生成查询推荐,首先需要对搜索日志中的session进行划分。有两个问题需要解决:一是选取划分方法,这决定了如何自动划分session。本文根据对所采用的搜索日志进行分析,采用了一种时间间隔法。二是在同一个session中,如何利用已经提交的查询,对用户的下一个查询进行判断和预测。2.改进序列生成模型。VMM模型是N-gram算法的扩展,考虑了用户的上下文信息,也能很好的解决可变长的上下文输入问题。但在VMM模型的建立过程中,预测后缀树的生长率参数ε要根据经验得到。ε值过大,就会丢失上下文信息;ε值过小,就会出现训练集数据过分拟合。本文通过训练多个不同边界的VMM模型,建立了扩展的VMM模型——EVMM。得到更准确的ε值,解决了上下文信息丢失和训练集数据过分拟合的问题。3.实验验证。生成查询推荐分为训练和测试两步。在训练阶段,对搜索日志的session做出准确的划分,然后生成扩展的序列查询预测模型;在测试阶段,根据输入的序列得到概率最大的前N个查询推荐。本文改进了查询推荐算法,并在搜索日志上进行比较和实验验证。结果表明,本算法能很好的从搜索日志中建立推荐模型,在测试集中具有更好的准确度和覆盖率,并具有较低的时间和空间复杂度。
其他文献
随着Internet技术的飞速发展,各种多样化的庞大信息资源每天以数量级的形式增长,在海量信息资源中大多数信息仍是以文本的形式存在,如何管理、组织如此庞大且不断增长的文本
如何提高现有无线网络资源的利用率,优化无线网络性能,具有重要意义。多播技术能有效地解决单点发送多点接收问题,实现网络中点到多点的高效数据传送,大量节约网络带宽并降低
针对实习医生基本技能训练时难以真实地融入到手术环境中的问题,通过研究虚拟环境下缝合线的建模方法,实现了连续控制点的缝合线3D模型的建立及其位置变换过程,提出了一种基
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可
时空数据库技术是计算机科学的新兴领域,用来存储和管理空间位置或空间范围随着时间变化的时空对象。随着移动通信、无线定位等技术的迅速发展,移动信息服务受到越来越多地关
脑-机接口(Brain-Computer Interface, BCI)作为一门交叉性学科,涵盖了生物医学、神经科学以及计算机科学等,已成为脑科学研究热点。在BCI研究中,脑电信号(Electroencephalog
RNA是生物遗传信息的中间载体,参与蛋白质合成,在细胞分化凋亡、生物发育、疾病发生等方面起着重要作用。RNA二级结构是由碱基配对与核苷酸链折叠而成的茎环空间结构,其茎环
学位
在现代信息社会里,电子文档已经成为最常用的信息保存和使用形式。无论是政府部门的政府公文、会议记录、涉密文档,还是企事业单位的发展规划、设计图纸、产品配方、软件源代
随着利用计算机犯罪的事件越来越多,计算机取证技术(Computer Forensics)逐渐成为人们研究与关注的焦点。作为计算机领域和法学领域的一门交叉科学,计算机取证常被用来解决大
随着科技的不断进步,信息产业快速增长,应用范围逐步增加,带来的网络攻击和破坏也越来越多,信息安全技术愈发受到重视.可是无论信息安全技术在这数十年如何发展,网络安全技术