实时垂直搜索引擎数据抓取调度研究

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:gdutzxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时垂直搜索引擎的发展解决了互联网用户对大规模高时间敏感度数据的搜索需求,而抓取任务调度相关技术是实时垂直搜索引擎的关键技术,决定了实时垂直搜索引擎的性能和用户体验。但是,目前学术界对实时垂直搜索引擎数据抓取任务调度的相关研究尚未开展,导致现有的实时垂直搜索引擎数据过期、抓取资源浪费的现象非常严重。本文对实时垂直搜索引擎的抓取任务调度相关技术进行了详细的总结和研究。首先对数据抓取的基本问题做了系统的归纳和分析,总结了实时垂直搜索引擎的抓取策略和数据变化规律的预测方法。然后提出了一种新的实时垂直搜索引擎抓取分发优化策略:OLCO策略,基于对象及其属性间的关联设计热门对象预测模型,对热门对象的变化趋势进行预测;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略。最后基于OLCO策略提出了一种自适应的实时垂直搜索引擎的任务抓取分发模型:SACD模型,该模型巧妙地利用了自适应的思想,有效地解决了实时垂直搜索引擎抓取分发模块配置复杂,维护成本高的问题。本文使用实际数据对所提出的理论和观点进行了详细的实验测试,验证了OLCO策略和SACD模型在处理实时数据时,用户查询结果平均数据新鲜度和准确率上显著优于传统垂直搜索引擎的各个策略,具有较大的实用价值。
其他文献
集成电路技术的限制使得单体计算机的运算速度难以再有快速的提高,因此,多核处理器成为计算机发展的主要方向。多媒体技术的发展使得图像文件不断增大,图像处理的实时性决定
随着计算机网络的快速发展,入侵检测这种传统的被动防御技术,已不能满足日益复杂的网络安全的需求。它急需与其它技术进行融合与协作。一方面目前入侵检测系统还不是很完善,
随着3D技术的发展,电脑动画已经广泛的应用于生物、军事、网络游戏等各个领域。虚拟人是3D动画中最丰富的因素,因此虚拟人动画描述语言是当前研究的一个热点。本论文的主要研
在目前提出的电子合同签订协议中,乐观合同签订协议由于运行效率高而具有应用前景。对于乐观签订协议的设计和验证是一个研究热点,除了常用的理论和方法,人们还提出了一些新的手
双线性对是近几年发展起来的用来构造密码协议的一个重要工具。基于双线性对的特殊性质,诸多有趣的密码协议被构造出来。这些协议利用其他基本数学工具是难以构造的。实现这些
安全多方计算(简称SMC)是指在一个互不信任的多用户网络中,两个或多个用户能够在不泄漏各自私有输入信息时协作执行某项计算任务。这个问题首先由A.C.Yao于上世纪80年代初提
智能家居系统本质是家庭集成自动化系统,即通过集成房屋内一些简单的设备遥控操作或是结合网络服务实现被动式的请求响应。近些年来,随着人工智能、网络技术、设备的微型化技
光流场能够反映图像上每个点灰度的变化趋势。光流场计算的可靠性已经成为计算机视觉研究领域面临的一个挑战,变分方法是目前实现光流计算的最成功的方法之一。本文的研究内
以TCP/IP协议为主要协议的Internet网络,正在渗透到人类社会生活的每个角落,已经逐渐成为人类社会的基础设施之一。Internet网络规模不断扩大,异构化程度不断增加,带宽成倍增
随着社会信息化的发展,Internet越来越受到全世界各类用户的喜爱。他们不断地登陆互联网,在网上搜索、寻找自己所感兴趣的话题和信息,从事一系列的网络交互活动。由于互联网