采集Ajax网页信息的网络爬虫研究与实现

来源 :中国计算机用户协会网络应用分会2011年第十五届网络新技术与应用年会 | 被引量 : 0次 | 上传用户:kaka43210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  通过使用浏览器API并模拟用户行为对网页元素进行操作采集Ajax网页信息。基于同一站点同一类型Ajax网页结构相似性特点,在系统采集动态信息前增加预处理阶段,查找Ajax网页中的有效触发元素,并对有效触发元素进行规约和模式分类,制定采集规则,实现Ajax网页信息的快速采集。
其他文献
  高校学生等级考试照片处理系统,依据不同考试,对照片规格要求不同的特点,按考试进行分类,对照片进行批量的统一规格处理,有效地降低了组织考试报名工作的劳动强度,减少了工作量
  随着互联网技术的发展,网络的触角蔓延到人类社会的方方面面,尤其是互联网成为人们获取信息的主要工具。与此同时互联网的信息量急剧膨胀,因此,从海量的数据中检索到自己所需
  简要介绍了全文检索的背景和作用,以及与使用数据库进行结构化数据查询的区别。采用Heritrix进行数据获取,进行相应的文本内容提取;而后基于文本内容构建倒排索引,采用Lucene
  本文是关于对气象数据维度的更新,解决多维数据的维度进行更新时,通过数据维度更新一致性算法如何能够正确地将维度数据添加到维度表中,增加维度,从而在进行多维分析时,此维度
课题团队调查研究发现,高职后进生英语学习动机的影响因素主要存在于:语言本身、学习者、学习环境、以及学习目标。作为学生学习环境的一个组成部分,教师的批评教育在激发这
翁建中原名剑钟,浙江嘉兴人,1942年出生。现为中国书法协会会员,江西省美术家协会会员,南昌画院特聘画家,江西省老年大学山水研究班教授出生于书香门第的翁建中,从小受家庭的
  为有效解决电子政务安全问题,扩展了WPDRR网络安全保障模型,加入了安全分析、评估和对于安全保护各环节的管理,提出了一种较为全面有效的网络与信息安全体系结构模型(M_A2P2
  高校资源是高等学校发展的重要条件。为了提高高校资源使用效率,体现“公平、公开、公正”原则和以人为本的服务宗旨,提出一个旨在解决该问题的高校资源预订系统参考模型。
  为实现高校信息系统数据的有效管理,提出了一种基于质量的数据生命周期管理方法。该方法包括数据生命周期的质量管理框架、质量管控策略和相关技术。质量管理框架包括管理
预期?看不见摸不着,价值何在?rn兹举一例.辽宁大力矫正“新官不理旧账”,严厉整治政府失信行为,最近几年清偿各种政府欠款数百亿元.花这么大代价买啥?徙木立信,买的是预期.rn
期刊