基于Sogou日志的个性化信息检索分析与建模

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kfanliang127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,网络资源呈现突飞猛进的增长,这给WEB用户带来了诸多不便,搜索引擎应运而生。然而不同背景、不同目的、不同时期的用户的信息需求往往是不同的,搜索引擎面对不同的用户都会给出相同的检索结果,这显然不能很好的满足用户的信息需求。个性化的信息检索技术被认为是解决该问题的重要技术。个性化信息检索技术将根据用户的兴趣给出相应的检索结果,可以最大限度的满足用户的信息需求。本文围绕个性化信息检索进行了以下三个方面的研究:本文的主要研究内容:1.个性化潜力分析。对于同一个查询词,不同的用户对信息的需求往往是不同的,我们将用户的需求差异称为查询词的个性化潜力。本文采用Kappa一致性检验衡量查询词的个性化潜力,并且对查询词的个性化潜力分布进行了分析。查询词的个性化潜力分布表明绝大多数查询词的个性化潜力较大,这也告诉人们从事个性化信息检索研究的必要性。2.实验数据加工算法。个性化信息检索研究面临的一个较大的障碍是缺乏真实有效的实验数据,针对该现象,本文提出了依据Sogou日志从网络上获取真实的WEB数据。网络资源虽然丰富但却充斥着很多垃圾信息,必须将这些垃圾信息过滤掉。为此,本文对数据加工算法进行了相应的研究,提出了主动学习算法和基于Co-training的主动学习算法用于数据加工。实验表明基于规则和逻辑回归的Co-training算法不仅性能最优,而且可以在很大程度上节省数据加工过程中需要的人工工作量。本文将该方法应用于WEB数据加工,并且得到了一个可以支持个性化信息检索的数据集。3.基于在线学习的个性化信息检索建模。用户的兴趣会随着时间发生变化,为此,本文提出在线学习的算法,实时的跟踪用户的兴趣,一旦用户的兴趣发生了变化,在线的学习算法就可以根据用户的点击对用户的兴趣模型进行学习,从而保证了用户兴趣始终是最新的,始终代表着用户当前的信息需求。本文提出了基于在线逻辑回归算法和SVM算法的个性化信息检索模型。实验结果表明这几个模型对检索性能均有一定程度的提高。
其他文献
面向服务计算是当前工业界与学术界备受关注的主题,也是未来的发展趋势。它倡导以服务及其组合为基础构造应用的开发模式,标准化、松耦合及透明的应用集成方式是其重要特征,
产品的设计过程是设计、分析与优化反复迭代的过程,因此需要CAD系统与分析优化系统的协作。基于IGES或STEP标准格式文件的协作虽然能够支持CAD系统与分析优化系统之间的边界
近年来,国内外在图像检索和管理技术的研究中出现了一个新热点—基于内容的图像检索CBIR(Content Based Image Retrieval)。纹理是图像的重要信息和特征,在病理诊断、文物复
本文旨在分析抽取Web企业信息系统的共性特征,采用“软件构件化”方法设计并实现了一些通用基础构件,以便于更快速地搭建基于Web的企业信息系统。本文首先阐述了构件技术和构
无线传感器网络(以下简称WSNs)集成了无线通信技术、传感技术、计算机技术等三大技术,被认为是21世纪最重要的新技术之一。WSNs由大量廉价微型传感器节点自组织而成,具有低功
随着互联网的普及、云计算的出现以及物联网的迅速发展,网络安全问题日益突出,安全漏洞和安全事件大幅度增加。网络蠕虫、黑客拖库、0day曝光以及个人隐私数据泄漏等网络安全
高速公路是人类社会前进的基石,是实现经济社会现代化的必然选择。它有效的促进沿线工业和农业经济的高速发展,为改善商品流通环境、促进市场繁荣起到极其重要的作用。我国高速
随着我国经济的高速增长,企业间的竞争也越来越激烈。旧的企业经营管理体制已经不能满足企业的发展要求,要想在激烈的竞争中求得生存,就必须改进现有管理模式,并借助管理信息系统
随着Internet的迅猛发展,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大的动态信息服务网,为用户提供了一个极具价值的信息源。传统的信息搜索技术由于对这些信息的
可视秘密共享是在秘密共享的基础上发展而来的对秘密图像的共享。目前可视秘密共享方案的瓶颈是通信效率、密图重构效率和质量等问题。基于神经网络的可视秘密共享方案是秘密