面向Web2.0社区的爬虫关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sima1969
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web 2.0社区是当前最为热门的互联网应用,SNS、微博、在线问答、贴吧等都是其典型代表。这类网站的特点是用户参与网站内容的创建与编辑,改变了以往信息单向发布的模式;此外,大量运用Ajax等富客户端技术提升用户体验,网页加载形式不同于以往的一次性加载,需要依赖于用户的交互操作才能形成最终视图。由于Web 2.0社区内容构成渠道更为多样化,信息的实效性和发布模式的不确定性较之传统网站大为增强,信息质量良莠不齐,客户端动态内容难于自动获取等,都给传统搜索引擎带来了挑战,现有爬虫技术需要在实时搜索和客户端动态内容索引方面进行改进,才能够适应Web 2.0社区所带来的互联网新浪潮。在实时爬虫方面,本文着重研究基于发布模式预测的爬虫调度策略,通过对本地索引质量标准的改进,引入社区网页内容权重评价体系,将其与索引时延因素结合作为新的度量标准,从而将爬虫调度问题归约为本地索引质量优化问题,利用网站历史发布数据挖掘出最优的爬行计划。在Ajax爬虫方面,由于Ajax单个页面中包含多个状态,’本文援引了经典的状态转换图模型对Ajax网站进行建模,并且引入基于XPath特征的无效元素检测、基于XHR监听的异步请求优化等手段,改进原有算法无关状态多、状态爆炸、识别重复状态困难、性能低下等缺陷,相比传统爬虫又在网页召回率方面获得了大幅提升。最后,本文提出了面向Web 2.0社区的爬虫原型系统的设计与实现,通过将其成功应用于校内新闻搜索引擎,验证了本文观点的正确性和有效性。
其他文献
表示层集成是通过组合组件的表示前端而非应用逻辑或者数据的一种集成方式,组件是独立的模块或者应用,属于粗粒度的集成,其目标是利用组件自身的界面来构造复合应用的界面。这种
SaaS(Software as a Service)作为一种新的软件交付模式,已经得到越来越多的应用,必将成为未来的软件科技发展的新趋势。然而,SaaS应用的实现相当复杂,必须确保其具备四大特
汽车电子已成为影响整车性能的重要技术之一,其中,以各种控制系统为代表的机电一体化技术是它的核心。汽车电子化程度是衡量一个国家汽车工业水平的重要标志,也是一个国家电子信
计算机网络的快速发展使得网络数据共享的应用越来越广泛,同时也使得数据系统的安全管理变得越来越困难。网络安全审计作为实现网络信息安全的重要机制之一,对建立完善的信息安
随着信息化时代的到来,计算机技术以及多媒体技术的迅猛发展,与数字化视频相关的应用领域不断拓宽。然而,视频的数据量是极其庞大的,对图像的传输、存储带来了极大的困难。因
遥感影像分类是遥感数据处理的核心内容之一,也是土地覆盖分类、资源环境调查等应用的重要基础。随着遥感观测技术的发展和行业应用的深入,分类的自动化程度和结果精度之间的矛盾越来越突出,如何合理解决这一矛盾已逐渐成为各种分类方法研究的主要目标之一。目前的分类方法或多或少需要人工参与,难以适应大数据量、定量化等应用需求。本文提出了完全脱离人工操作的全自动分类的概念,通过结合图谱耦合认知理论与模式识别方法,将
众所周知,数字图像在获取、传输和处理等过程中将不可避免地受到来自外部和内部不同程度的各种噪声干扰,致使图像质量下降。图像噪声有很多种,主要表现为脉冲噪声。中值滤波是广
无线网络可用于无线通信、监测环境以及收集数据等多种功能。然而无线网络中节点存在电源容量、存储容量、通信能力和计算能力等方面的限制。传统无线路由协议在中间节点只负
人机交互是计算机领域永恒的课题,如何建立和谐自然的人机交互环境是当前人机交互的研究热点及难点。手势作为一种自然直观的交互方式,符合人们的交流习惯,引起人们的研究兴
1993年Tirkel等人提出了“数字水印”这一概念,随后数字水印技术在隐藏标识、防伪溯源、认证和安全隐蔽通信等领域得到了充分的应用。近年来,随着计算机处理速度的飞速提升,以及