论文部分内容阅读
随着互联网的兴起以及云计算技术的快速迭代,每个行业生成和处理的数据量正进行着指数级别的增长。大数据作为当前时代发展的产物,正在多元化的影响着社会生产生活,在检索领域,搜索引擎成为现代网络发展史上的一个转折点,大型搜索引擎每天可以产生和获取上万计甚至上亿计的点击日志数据,这些点击日志中蕴含着大量的用户相关信息,所以各大搜索引擎公司开始逐渐重视自己的搜索日志,通过对这些日志进行相应的过滤分析,挖掘出与用户相关的信息,以此来提升检索系统的效果。本文针对海量的用户搜索日志主要进行如下工作:(1)分析日志清理相关技术,分析原始浏览日志数据形态,根据浏览器记录跳转关系将用户搜索与点击对应,采取滑动窗口的方式生成每天用户的点击数据流,基于Spark通过相关数据挖掘的方法对用户点击链接进行清洗、过滤以及参数的归一化,并生成用于后续相关算法使用的数据。(2)根据向量传播算法挖掘出检索词与链接的关联关系,首先构建了检索词-链接的点击二部图,然后基于随机游走模型对该点击二部图进行建模,挖掘出用户检索词与没有点击到的链接的隐含关系,同时也可以利用该算法迭代到奇数步时获得检索词与检索词、链接与链接的内在关系。(3)通过向量传播算法可以计算出己知的检索词-链接关联关系,但是在搜索引擎中,每天都会有源源不断的新检索词进入其中,如何计算这些新的检索词与已知链接的关联关系,成为一个必须解决的问题,为了解决该问题,基于向量传播算法产生的数据训练了一种在线使用的泛化模型,实时计算用户检索词与网站链接的关联度。通过对浏览器搜索日志的分析处理,不仅仅可以得到相关的点击特征,更可以通过这些己有的点击特征,去扩展出新的点击信息,并根据这些信息对新的搜索检索词进行泛化,这一特征可以直接参与到网页的排序上来,实现更加人性化的排序。