【摘 要】
:
随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow
论文部分内容阅读
随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow的调度系统利用了有向无环图的概念来构建工作流,但是因为其构建需要通过编程来实现,又形成了较高的使用门槛。针对以上大数据处理任务调度中的问题,以及考虑到实习公司在数据处理中调度规模的使用情况,单工作流可包含上百个任务,日均调度量十万级,因此,设计并实现了一款任务调度系统。采用多Master多Worker分布式系统架构,创建工作流时采用了可视化有向无环图的方式,这两个特点分别能够大幅缩短数据处理的用时以及降低使用门槛。此分布式系统基于分布式协调框架Zookeeper构建,实现了高可用性,保证在系统内,部分组件失效时仍然能够执行任务。由于许多场景下数据处理需要定时进行,因此基于Quartz实现了对定时任务的支持。任务调度系统的Web前后端分别是基于Spring Boot框架以及Vue.js前端框架实现,实现了对工作流的管理以及对任务执行日志的查看功能,为运维工程师和应用开发者提供了易于使用的交互界面。任务调度系统在实现对数据处理任务进行调度的基础上,吸取了分布式系统的可扩展性优势,以及采用可视化图模型的表达力和表现力强的优势,使得用户可以更容易的对大数据任务处理进行调度,满足了实习公司在对海量数据进行处理时,对调度系统的功能和性能需求。
其他文献
<正>近日,工业和信息化部等十一部门联合发布了《关于培育传统优势食品产区和地方特色食品产业的指导意见》。为便于贯彻实施《指导意见》,现将有关内容解读如下:一、《指导意见》编制目的是什么?食品产业是“为耕者谋利、为食者造福”的重要民生产业,传统优势食品产区和地方特色食品产业是我国食品工业重要发展载体和关键增长引擎,在满足人民群众美好生活需要、助力乡村振兴和实现共同富裕等方面发挥重要作用。近年来,习近
空气污染事件的发生严重影响着社会的发展和人民的健康,制定控制方案减少污染物的排放量是应对短期空气污染事件的重要措施。但是,一味地追求减排效果会导致高额的减排成本,同时,空气污染控制方案的实施会受到难度和政策等因素制约。因此,空气污染防治的决策者迫切需要一个能够综合分析成本效益的评估体系以及自动化的评估流程。针对上述的问题,论文首先设计了一个空气污染控制方案的费效综合评估模型,使用线性规划建立最小经
随着数字通信技术的发展及微博等社交媒体在人们日常生活中的深度融入,公民公共表达意愿与能力提升,人们进入“表达”的时代。舆情研究也逐渐上升到国家战略的位置,备受政府与学界的重视。传统的舆情分析系统,一方面多使用大数据计算和分析技术进行数据处理,缺乏数据广度、挖掘深度;另一方面主要集中在商用和政府治理领域,专注于科研领域的舆情分析系统较少且影响力甚微。因此,需要设计并实现一款对数据进行深度挖掘的、专注
<正>4月6日,在国务院新闻办公室举行的“权威部门话开局”系列主题新闻发布会上,国家税务总局局长王军表示,税务部门要更好地发挥和拓展提升税收职能作用,以税收现代化更好服务中国式现代化。王军提出,一是要持续强化税务机关首先是政治机关的建设,任何时候都要做到党中央有部署、税务部门见行动。
在推荐系统中,用户的偏好往往是个性化的,且用户会随着时间的推移而改变他们的偏好,推荐模型如果忽略了用户个性偏好的动态变化,可能会导致推荐质量的下降。其次,推荐系统大都受到冷启动和数据稀疏的影响。如何准确地捕捉用户个性偏好的动态变化,并有效地缓解冷启动和数据稀疏的影响,是提高推荐质量,改善用户体验的关键。由于张量能够更好地存储时间信息从而利于分析用户偏好随时间的变化,且通过耦合张量分解对多个信息进行
近些年来随着机器学习的不断发展,它在各个民生领域都发挥出了重要的作用,例如人脸识别、语音检测等。并且随着现在大数据时代的蓬勃发展,越来越多的数据资源能够被利用,这为解决一些实际问题提供了很大的便利。作为民生热点的森林火灾,难以预防并且危害极大。森林火灾的起因是多方面的,例如温度,降雨,地形和植被等原因。采用机器学习的方法可以有效利用这些特征,能够对森林火灾发生的概率进行较为准确的预测,这可以更客观
微服务软件架构具有低耦合、易扩展和高可用的优点,现代软件架构逐步向微服务演变。在高并发环境下微服务的应用带来了新的挑战:服务间的网络IO通信延时会影响服务质量;各个服务独立部署引入了分布式问题,且彼此之间相互依赖,这就需要有效的服务治理手段对集群中的各个服务节点进行管理。为了解决上述两个问题,本文设计并实现了微服务框架rush-RPC。为解决服务间的通信延时问题,rush-RPC从两方面入手:一方
税收现代化服务中国式现代化,要找到税收现代化与中国式现代化的相关性,抓住主要矛盾和矛盾的主要方面,探寻实现路径:健全税收法治体系,充分发挥税收在促进全体人民共同富裕、人与自然和谐共生中的调控作用;应用“助推理论”,优化税务执法方式;营造良好税务营商环境,优化服务,释放政策红利;强化现代税收征管,提高聚财能力;大力培育和践行中国税务精神。
在传统的运动康复中,行走训练是对下肢康复十分重要的一种训练方式。目前虚拟现实游戏中的漫游通常是通过手柄摇杆进行控制,令用户在现实空间中保持静止的同时在虚拟环境中自由漫游。这种漫游方式一方面无法令用户进行行走训练,另一方面会引起用户大脑接收到的视觉信息和前庭感官接收到的运动信息不一致从而引发晕动症。同时由于虚拟现实头显隔绝了用户与现实世界的视觉信息获取,因此如何保障用户在虚拟环境中进行训练时的安全也
由于我国人口基数庞大,地区之间经济发展水平差异明显,人均医疗资源十分有限且分布不均衡,一方面患者面临“就医难、挂号难、预约难”问题,另一方面医院存在“病源不足,资源闲置”的问题。如何在医患之间建立起有效的信息交流平台,解决患者和医院面临的问题,不仅会产生经济效益,而且会带来积极的社会效应。因此,利用软件工程技术,开发一个功能完备、服务患者和医院的网上预约挂号系统具有重要意义。网上预约挂号系统分为两