论文部分内容阅读
随着Internet的飞速发展和万维网(WWW)的日益庞大,Web资源的复杂程度更是以指数级的数量增长,导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题,搜索引擎出现了。现今的搜索引擎往往具有通用性,排序机制中又没有考虑到用户的偏好,因而很难满足不同背景、不同目的的用户需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。
首先,介绍了个性化Web信息采集的研究背景和意义,个性化技术和Web信息采集的研究现状;
其次,用户兴趣个性化信息的获取。分析了用户兴趣个性化显示和隐式信息的收集,介绍了个性化搜索引擎中有关用户建模的关键技术,提出了一种新的用户建模方法,即把手工定制建模和自动用户建模结合起来,根据用户的浏览行为引入了“相关兴趣度”,用来表示用户对页面感兴趣的程度,并更新用户兴趣模型。
再次,介绍了个性化信息采集的流程,以及对采集结果相关度的常用算法。详细介绍了PageRank算法和HITS算法的核心技术,指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处。最后介绍了采集器使用多线程采集页面,提出常见的3种采集策略的介绍。
最后,个性化Web信息采集的性能优化。分别从基于链接的相关度算法的改进、采用并行系统进行采集,页面刷新来实现。在相关度算法上,引入了面向主题的思想,重新计算连接关系对页面权重的影响的前提下,提出了一种新的基于链接分析的结果排序算法,有利于提高查询的精度。且提出多线程的增量式Web信息采集架构,提高采集效率同时,来解决并行采集中的网页消重、页面优化、内存不足等问题。且采用增量式信息采集进行页面刷新。