基于Web的用户个性化信息采集技术分析

来源 :重庆大学 | 被引量 : 0次 | 上传用户：resident_2

【摘要】

：

随着Internet的飞速发展和万维网(WWW)的日益庞大，Web资源的复杂程度更是以指数级的数量增长，导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题，搜

【作者】

：

高灵霞

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2009年期

【关键词】

：

Web用户个性化信息采集信息过载搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的飞速发展和万维网(WWW)的日益庞大，Web资源的复杂程度更是以指数级的数量增长，导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题，搜索引擎出现了。现今的搜索引擎往往具有通用性，排序机制中又没有考虑到用户的偏好，因而很难满足不同背景、不同目的的用户需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息，通过用户兴趣制导或与用户交互等灵活手段来采集Web信息，充分利用网络信息，以更好地服务于用户的个性化需求。　　首先，介绍了个性化Web信息采集的研究背景和意义，个性化技术和Web信息采集的研究现状；　　其次，用户兴趣个性化信息的获取。分析了用户兴趣个性化显示和隐式信息的收集，介绍了个性化搜索引擎中有关用户建模的关键技术，提出了一种新的用户建模方法，即把手工定制建模和自动用户建模结合起来，根据用户的浏览行为引入了“相关兴趣度”，用来表示用户对页面感兴趣的程度，并更新用户兴趣模型。　　再次，介绍了个性化信息采集的流程，以及对采集结果相关度的常用算法。详细介绍了PageRank算法和HITS算法的核心技术，指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处。最后介绍了采集器使用多线程采集页面，提出常见的3种采集策略的介绍。　　最后，个性化Web信息采集的性能优化。分别从基于链接的相关度算法的改进、采用并行系统进行采集，页面刷新来实现。在相关度算法上，引入了面向主题的思想，重新计算连接关系对页面权重的影响的前提下，提出了一种新的基于链接分析的结果排序算法，有利于提高查询的精度。且提出多线程的增量式Web信息采集架构，提高采集效率同时，来解决并行采集中的网页消重、页面优化、内存不足等问题。且采用增量式信息采集进行页面刷新。

其他文献

基于语义网格的知识地图资源组织研究与应用

语义网格将Web上的信息进行形式化的定义,帮助机器与人之间的协同工作,这种形式化后的信息被看做语义网格中的知识,也是语义网格中的资源。目前,国内外对语义网格中知识资源

学位

知识地图语义OGSA本体养老保险

基于Web日志的用户兴趣聚类研究

随着Internet的普及,信息快速增长与人们注意力有限性的矛盾在不断增加,而Web日志挖掘正是解决这一矛盾的有效手段。Web日志中隐含了用户访问网站的行为和特点,使用聚类技术

学位

Web日志挖掘数据预处理访问路径兴趣聚类

自硬公司MIS系统设计与部分子系统的实现

随着电信和网络技术的发展,企业每天需要接触、筛选、分析、加工整理大量的数据,与此同时,企业的各个环节每天也要产生许多新的生产、成本、管理、统计分析等数据。如何把这

学位

MIS系统设计库存管理数据库

基于混沌局部搜索的多目标遗传算法研究

多目标优化问题大量的存在于现实生活中,并且也是工程领域和科学领域研究的热点。多目标优化问题由于考虑的优化目标不是单一的,与一个目标函数的优化具有很多不同的地方。在

学位

混沌局部搜索多目标遗传算法

数据备份系统中恢复性能优化方法研究

学位

黄土高填方工程监测信息可视化研究

黄土高填方工程因其超大土石方量、建设环境复杂、相互影响因素多等特点,建设施工技术复杂。针对这种情况,本文提出一种高填方工程信息动态可视化方法,通过建立黄土高填方地

学位

黄土高填方可视化监测信息三维GIS体绘制

XML安全技术在校园网办公系统中的应用研究

随着计算机技术和网络技术的飞速发展，特别是我国信息化建设的迅速普及，校园网应用日益广泛。其中，高校网上办公系统是一个网络化、公开化、标准化的工作平台，其安全性相关问题也

学位

校园网网上办公系统网络安全XML加密数字签名

基于混沌映射的Hash函数构造研究

随着计算机科学和网络技术的快速发展,信息安全成为了学术界和企业界共同关注的热点。信息认证技术主要包括文本的Hash函数、基于脆弱/半脆弱数字水印的图像认证等。Hash函数

学位

混沌Hash函数高维猫映射控制字符查找表

P2P模式的流媒体教学系统的研究

流媒体应用是当今互联网流行的应用之一,本文的主要目的是构建适合校园网传输特点的P2P模式的流媒体教学系统,将P2P网络引入流媒体服务中,可以合理使用网络带宽,直接减轻服务

学位

P2P流媒体教学系统PSMES

面向新型非易失内存的动态模式压缩方法研究

随着互联网技术的发展，每时每刻都在产生大量需要处理的数据，传统的DRAM技术在可扩展性和能耗方面面临着严峻的挑战。新型非易失内存技术具有高可扩展性和低功耗的优点，可能成为

学位

非易失内存压缩技术数据分布延时性能能耗控制

基于Web的用户个性化信息采集技术分析

与本文相关的学术论文