基于Web的用户个性化信息采集技术分析

来源 :重庆大学 | 被引量 : 0次 | 上传用户:resident_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展和万维网(WWW)的日益庞大,Web资源的复杂程度更是以指数级的数量增长,导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题,搜索引擎出现了。现今的搜索引擎往往具有通用性,排序机制中又没有考虑到用户的偏好,因而很难满足不同背景、不同目的的用户需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。   首先,介绍了个性化Web信息采集的研究背景和意义,个性化技术和Web信息采集的研究现状;   其次,用户兴趣个性化信息的获取。分析了用户兴趣个性化显示和隐式信息的收集,介绍了个性化搜索引擎中有关用户建模的关键技术,提出了一种新的用户建模方法,即把手工定制建模和自动用户建模结合起来,根据用户的浏览行为引入了“相关兴趣度”,用来表示用户对页面感兴趣的程度,并更新用户兴趣模型。   再次,介绍了个性化信息采集的流程,以及对采集结果相关度的常用算法。详细介绍了PageRank算法和HITS算法的核心技术,指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处。最后介绍了采集器使用多线程采集页面,提出常见的3种采集策略的介绍。   最后,个性化Web信息采集的性能优化。分别从基于链接的相关度算法的改进、采用并行系统进行采集,页面刷新来实现。在相关度算法上,引入了面向主题的思想,重新计算连接关系对页面权重的影响的前提下,提出了一种新的基于链接分析的结果排序算法,有利于提高查询的精度。且提出多线程的增量式Web信息采集架构,提高采集效率同时,来解决并行采集中的网页消重、页面优化、内存不足等问题。且采用增量式信息采集进行页面刷新。
其他文献
语义网格将Web上的信息进行形式化的定义,帮助机器与人之间的协同工作,这种形式化后的信息被看做语义网格中的知识,也是语义网格中的资源。目前,国内外对语义网格中知识资源
随着Internet的普及,信息快速增长与人们注意力有限性的矛盾在不断增加,而Web日志挖掘正是解决这一矛盾的有效手段。Web日志中隐含了用户访问网站的行为和特点,使用聚类技术
随着电信和网络技术的发展,企业每天需要接触、筛选、分析、加工整理大量的数据,与此同时,企业的各个环节每天也要产生许多新的生产、成本、管理、统计分析等数据。如何把这
多目标优化问题大量的存在于现实生活中,并且也是工程领域和科学领域研究的热点。多目标优化问题由于考虑的优化目标不是单一的,与一个目标函数的优化具有很多不同的地方。在
学位
黄土高填方工程因其超大土石方量、建设环境复杂、相互影响因素多等特点,建设施工技术复杂。针对这种情况,本文提出一种高填方工程信息动态可视化方法,通过建立黄土高填方地
随着计算机技术和网络技术的飞速发展,特别是我国信息化建设的迅速普及,校园网应用日益广泛。其中,高校网上办公系统是一个网络化、公开化、标准化的工作平台,其安全性相关问题也
随着计算机科学和网络技术的快速发展,信息安全成为了学术界和企业界共同关注的热点。信息认证技术主要包括文本的Hash函数、基于脆弱/半脆弱数字水印的图像认证等。Hash函数
流媒体应用是当今互联网流行的应用之一,本文的主要目的是构建适合校园网传输特点的P2P模式的流媒体教学系统,将P2P网络引入流媒体服务中,可以合理使用网络带宽,直接减轻服务
随着互联网技术的发展,每时每刻都在产生大量需要处理的数据,传统的DRAM技术在可扩展性和能耗方面面临着严峻的挑战。新型非易失内存技术具有高可扩展性和低功耗的优点,可能成为