基于用户词典的搜索个性化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:alex851123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络是人们获取知识和传递信息的桥梁。然而,随着近年来internet的高速发展,网络上信息的数量也呈现指数级的增长,在这一背景下,互联网使用者往往无法轻松找到需要的信息,一种能够充分利用互联网信息的技术呼之欲出。个性化搜索(Personalized Search)技术一直是近年来信息检索领域的热点,它弥补了目前搜索引擎不区分用户的功能缺陷。为了向用户提供个性化的信息检索服务,本文采用一系列以用户浏览历史为依据的个性化策略,使搜索引擎能够区分用户,提供真正面向用户的个性化搜索服务。在对课题的研究中,本文所做的主要贡献体现在以下方面:①合理利用互联网用户的网络浏览历史,采用一种以经典TF-IDF算法为基础的策略,在对不同用户进行特征描述前,首先形成该用户的个性化用户词典。用户词典的采用,不仅可以缩小用户描述空间,大大缩减形成用户描述文件的时间复杂度。同时该词典还支持二级向量的使用,使用户描述更加丰富。②为了优化用户兴趣描述模型,本文提出一种基于超链接标记的互联网网页正文识别及提取方法,准确获取互联网网页所表达的核心信息,有效削减互联网广告等对用户兴趣贡献不大的信息所带来的噪音。同时,采用一种包含聚类反馈信息的网页频繁词处理策略,在用户词典中剔除对用户兴趣干扰较大的互联网频繁词,从而优化用户词典的描述准确度,以形成更加精确的用户模型。③对搜索引擎模型进行改造,使用用户词扩展算法,准确定位用户搜索词的类别,计算搜索词同候选关键词之间的相似度,在候选词中选取合适的、面向用户的扩展词,以推荐给用户。并将词扩展策略以搜索组件的形式集成在搜索模型当中,当用户向搜索引擎提交搜索关键词的同时,根据日常学习到的用户个人兴趣,由本文所述的个性化策略对用户潜在的搜索意图进行理解,自动增加几个体现用户偏好的扩展词一起提交给搜索引擎,这样能过滤出需要的信息,以实现搜索引擎的个性化,从而可以提高搜索引擎检索效率。本文尝试将目前主流的商业搜索引擎作为个性化策略中的模块进行研究,充分利用搜索引擎查全率高,反映速度快的特点,研发了安装于用户主机的客户端搜索组件PSEplugin,该组件具有很大的应用价值和推广潜力。课题研究过程中,通过实验证明了PSEplugin及各相关技术应用于信息检索领域的有效性和实用性。
其他文献
随着视觉传感器技术的飞速发展,数码相机、摄像机等多媒体生产设备逐渐进入寻常百姓家。在这种情况下,人们生产、存储、分享图像信息的能力得到极大地提高。图像等多媒体内容
无线传感器网络综合了现代传感器技术、微电子技术、通信技术、嵌入式计算技术、和分布式信息处理技术等多个学科,是一个新兴的交叉研究领域。无线传感器网络能够实时监测、
贝叶斯网络将概率理论和图论相结合,为解决不确定性问题提供了一种自然而直观的方法。本文深入研究了贝叶斯网络的结构学习问题,主要的工作如下:1、研究了三类贝叶斯网络结构
随着通信技术的迅速发展,手机短信已成为人们生活中不可缺少的一部分。短信服务已渗透到教育、政府机关、银行等多种行业,相关行业的服务形式和服务内容因此有了重大的突破。
近年来随着无线通信、集成电路、传感器以及微型机电系统(MEMS)等技术的飞速发展,使得低成本低功耗、多功能的微型无线传感器的大规模生产成为可能。由这些具有无线通信、数
近年来,计算机测量技术得到飞速迅猛发展,很多新的检测技术应运而生,由此,在线测量能达到高精度高速度的标准。图像测量技术的一个重要方面是图像边缘检测,边缘检测主要对图像提取
传统的文本分类算法需要大量的标注文本,但标注大量训练文本需要艰苦而缓慢的手工劳动,从而制约了整个分类系统的构建。增量学习技术可以利用少量的已标注文本对大量的未标注
人脸是人们社会交流中所关注的焦点,在辨别身份和传递感情方面起着重要的作用。由于人脸识别技术在视频监控、访问控制、信用卡验证、多媒体数据库检索以及安全等领域有着广
随着企业信息化不断深入,企业资源安全成为最为急需解决的问题之一。访问控制对系统资源的安全性至关重要。访问控制的目标是防止用户对系统资源进行非授权的访问。分析研究
随着信息技术的迅猛发展,用户需求的不断升级,基于Internet技术的应用以惊人的速度渗透到社会生活的方方面面,Web站点俨然已成为一个巨大的信息集散地。如何快速、高效、准确