【摘 要】
:
Web2.0下的新媒体业务不再局限于生产媒体素材,新媒体业务往往通过爬虫引擎抓取大量的媒体资源网站获得媒体素材。内容汇聚子系统通过可定制爬虫实现对多个网络电台的数据抓
论文部分内容阅读
Web2.0下的新媒体业务不再局限于生产媒体素材,新媒体业务往往通过爬虫引擎抓取大量的媒体资源网站获得媒体素材。内容汇聚子系统通过可定制爬虫实现对多个网络电台的数据抓取,为中国广播云平台提供数据服务。然而,为了获得丰富的素材内容,爬虫引擎需要对大量的网站进行垂直爬取,媒体网站数量较多,且不同网站的结构不同,页面结构复杂,数据形式丰富,被抓取的网站经常发生结构的改变。这些问题给系统开发人员带来了极大的开发负担,给系统使用人员带来了极大的管理负担。针对爬虫业务逻辑多变、普通爬虫框架对于使用者门槛较高的问题,同时基于内容汇聚子系统的特点,结合具体的用户需求,设计实现了可定制爬虫引擎。可定制爬虫引擎避免了系统使用者直接接触爬虫业务代码,为系统使用人员提供一种基于描述文件来轻量级实现数据抓取逻辑的机制。基于描述文件,系统使用者可以对爬虫引擎的业务逻辑实现快速更新、批量管理、实时管理,通过对系统定义的数据抓取规则的灵活组合来控制爬虫执行逻辑。为实现上述功能,对系统功能进行了需求分析与关键问题研究,明确了系统应区别于常规单机爬虫框架,应实现可伸缩的弹性架构,确定了可定制爬虫引擎的架构与工作方式,探讨了弹性框架中需要解决的爬虫管理与进程通信的关键问题;然后基于爬虫系统应用的功能,对系统应该开放给用户的规则进行分析,相关规则包括爬虫执行限定区域、反反爬虫、爬虫前置操作、数据抽取、后置操作等,针对规则,爬虫引擎应作为一个规则的解析器与运行器执行上述规则。又对框架的实现需要的HTTP代理与数据增量抓取进行了分析。在进行了需求分析与关键问题的探讨后,本文给出了可定制爬虫引擎的设计与实现。后续为测试系统功能正确,设计测试用例并进行了测试,测试结果证明设计符合要求,最后进行全文总结。
其他文献
概念表征一直是语言研究的重要内容。传统的命题符号理论认为概念表征与外界具体事物和身体经验没有直接联系,是以抽象符号的形式存储于语言记忆中,而知觉符号理论则强调身体
水是生命之源,是人类和所有生物赖以生存和发展的物质基础,水资源的安全与社会发展、人类生活密切相关。近年来,随着中国人口的不断增加和社会经济的飞速发展,导致水资源供需
本翻译报告原文选自《数字一代的思维技能:信息时代思维与学习的拓展》第五章,该书的作者是巴卢·H阿思瑞亚(Balu H.Athreya)和克里斯托拉·莫扎(Chrystalla Mouza)。该书属
本文是一篇翻译项目报告。翻译项目的原文选自《隐私:人人需知的事实》(Privacy:What Everyone Needs to Know)一书第四章“隐私与教育信息”(Privacy and Educational Infor
本文是一篇翻译项目报告。翻译项目的原文节选自《正在消失的美国成年人:我们的成年危机,如何重塑自立文化》(The Vanishing of American Adult:Our Coming-of-Age Crisis an
近些年里,随着对于化学疗法治疗癌症的理解和研究的不断加深,与之匹配的药物递送体系的设计及其性能要求也需要大幅度提高,各种刺激响应性的新型聚合物作为药物载体吸引了广
交通拥堵是各大城市普遍存在的问题,造成交通拥堵的主要原因之一是交通流空间分布的不均衡。如何通过历史交通流数据对城市交通网络的均衡结构进行评价,并利用现有的数据优化
静态缺陷检测技术因利用各种静态分析方法来发现程序中的潜在缺陷而深受用户青睐。但缺陷检测结果往往存在大量的漏报和误报,这需要用户投入大量的时间和精力进行人工确认。
目的:明确桥性骨赘对行后路经椎弓根短节段内固定且不做植骨融合术的新鲜单节段胸腰椎爆裂骨折局部后凸畸形的影响。方法:回顾性分析我科2012年9月至2014年9月期间收治,采用
本文这篇翻译项目报告,英语原文材料选自《性别歧视法》(The Law of Sex Discrimination)第四版。笔者翻译了第五章“平等教育机会”,这一部分介绍了美国教育机构性别平等状