用户搜索日志分析及其在检索中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:danda333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起以及云计算技术的快速迭代,每个行业生成和处理的数据量正进行着指数级别的增长。大数据作为当前时代发展的产物,正在多元化的影响着社会生产生活,在检索领域,搜索引擎成为现代网络发展史上的一个转折点,大型搜索引擎每天可以产生和获取上万计甚至上亿计的点击日志数据,这些点击日志中蕴含着大量的用户相关信息,所以各大搜索引擎公司开始逐渐重视自己的搜索日志,通过对这些日志进行相应的过滤分析,挖掘出与用户相关的信息,以此来提升检索系统的效果。本文针对海量的用户搜索日志主要进行如下工作:(1)分析日志清理相关技术,分析原始浏览日志数据形态,根据浏览器记录跳转关系将用户搜索与点击对应,采取滑动窗口的方式生成每天用户的点击数据流,基于Spark通过相关数据挖掘的方法对用户点击链接进行清洗、过滤以及参数的归一化,并生成用于后续相关算法使用的数据。(2)根据向量传播算法挖掘出检索词与链接的关联关系,首先构建了检索词-链接的点击二部图,然后基于随机游走模型对该点击二部图进行建模,挖掘出用户检索词与没有点击到的链接的隐含关系,同时也可以利用该算法迭代到奇数步时获得检索词与检索词、链接与链接的内在关系。(3)通过向量传播算法可以计算出己知的检索词-链接关联关系,但是在搜索引擎中,每天都会有源源不断的新检索词进入其中,如何计算这些新的检索词与已知链接的关联关系,成为一个必须解决的问题,为了解决该问题,基于向量传播算法产生的数据训练了一种在线使用的泛化模型,实时计算用户检索词与网站链接的关联度。通过对浏览器搜索日志的分析处理,不仅仅可以得到相关的点击特征,更可以通过这些己有的点击特征,去扩展出新的点击信息,并根据这些信息对新的搜索检索词进行泛化,这一特征可以直接参与到网页的排序上来,实现更加人性化的排序。
其他文献
深圳提出要勇当"四个全面"排头兵,建成现代化国际化创新型城市。芝加哥是美国第三大城市,也是具有世界影响力的国际大都市,在国际化城市建设与管理方面具有成功经验和重要借
本文推导了等差数列和等比数列的共轭定理及其推论,有效地解决了项不确定的等差数列的连续n项和与项不确定的等比数列的连续n项积的计算问题.
随着移动互联网的快速发展,无线频谱资源愈发紧缺。无线带内全双工(IBFD)可以在同频段同时实现数据的收发,具有频谱效率加倍的理论预期。带内全双工技术发展的主要挑战之一是
校本教师培训基本原理,是指作用于校本培训过程中的具有普遍性、基本性的基础规律,是彰显校本培训特色的主要特征。判断是否是真正意义上的校本教师培训,并不在于时间先后、人数
高强度间歇训练(High Intensity Interval Training,HIIT)是一种在短时间内,大运动量和高效率地参加并完成一项运动项目,并利用多组手段进行运动干预的训练方法。期间的休息
环氧树脂-丙烯酸酯树脂(EA)复合乳液涂膜既具有环氧树脂的高强度、高模量、优良的耐化学品性及防腐性,又兼有丙烯酸树脂的光泽、丰满度、耐候性、粘接性好等特点,近年来得到
全双工技术能够实现同时同频收发信号,相比传统的半双工系统,理论上可以实现频谱效率的成倍提升。但与此同时,全双工技术又引入了自干扰,抑制了全双工带来的高频谱效率的性能