基于Spark平台的电信运行商收入分摊系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zxpmine01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的兴起,移动用户数目激增。电信运行商们所拥有的用户数均达到了亿级。作为电信运行商核心业务的计费与结算所涉及的总数据量上升到了 PB级别。收入分摊是这一核心业务的重要环节之一,它将计费收入按照规则分摊给各个部门,是一组数据量大,容错率低,需要在短时间内计算出结果的批处理任务。运营商们分别基于商业数据库Hana,mpp数据库Greenplum来构建收入分摊系统。但是Hana的花费十分昂贵,Greenplum存在可扩展性差、稳定性低的问题。如何构建一个保证快速计算的同时还兼备廉价、可扩展性强、稳定性高的收入分摊系统成为电信运行商亟需解决的问题。本文的实际应用场景为联通软件研究院的收入分摊业务,以联通的用户计费数据为数据基础。业务内容是将当月收入按照给定的分摊规则进行关系运算,计算出各个部门分得的收入。业务过程可以粗粒度的划分为如下步骤:首先,数据从计费系统通过数据抽取工具抽取至收入分摊计算集群,储存至数据仓库中。待数据全部到位后,按照制定的顺序依次执行存储过程SQL,在存储过程SQL执行完毕后将执行结果写回数据仓库中。所有省份的存储过程均执行完毕后,分摊工作结束。本文使用分布式存储与计算技术,借助Spark计算引擎,Alluxio内存分布式文件系统,Hive数据仓库,HDFS分布式文件系统,MySQL数据库,Python语言与Scala语言实现了收入分摊系统的数据预处理层、计算层以及监控层的实现。本文介绍了本系统开发的实际应用背景,并简要的分析了 Spark计算引擎技术与Alluxio内存分布式文件系统技术,简要介绍了本系统的系统架构,详细阐述了本电信运行商收入分摊系统的设计与实现过程,该部分是本文的重点。基于Spark平台的新系统的实现极大地为运营人员的分摊工作提供了便利,系统能够稳定地运行不会出现旧系统易发的崩溃情况。数据量大的存储过程类别的执行时间较旧系统来说有所提升,将河南、山东的实收过程的执行时间从1小时以上缩短至40分钟以内,提高了存储过程的执行效率。新系统已通过功能性和非功能性测试,等待部署上线。
其他文献
为揭示湖泊近岸浅层地下水升降对菜地土壤剖面硝化与反硝化功能微生物基因丰度的影响,以洱海湖滨带菜地土壤剖面为研究对象,通过模拟地下水升降过程,分析了水位升高(S1)、水位
针对铁路货场装卸集装箱多采用无动力简易集装箱吊具存在的问题,南昌铁路局南昌机械厂开发设计自平衡旋转集装箱吊具,介绍了吊具开发设计的总体思路、技术方案、相关计算及取
植物是影响沉积物反硝化作用的重要因素之一,国内外已有不少研究探讨了植物对河口或湖泊沉积物反硝化速率的影响,但关于植物类型对自然沟渠沉积物反硝化速率及其相应功能基因
在实地调查的基础上,运用投入产出理论、柯布-道格拉斯生产函数对定西马铃薯生产的投入产出进行了实证分析,结果显示:水供给量、化肥施用水平和薯种质量对产出具有重要影响。
分析了两种不同的八绳防摇系统的基本原理,介绍了它们各自的组成,并基于ANSYS软件,对这两种系统分别进行瞬态动力学仿真,获得了两种系统的防摇效果振动曲线,从而得到了它们各
<正> 对17年生的日本赤松进行松材线虫的接种实验,接种后,在观察日本赤松症状进展的同时,对树脂分泌量、水势以及蒸腾量也进行了测定,对其水分生理状况的变化进行了探讨。同
<正>《企业职工奖惩条例》于2008年1月15日废止,结束其在我国计划经济时期对国有全民企业中具有固定工身份的企业员工行为约束的历史使命,取而代之的是符合现代企业法制原则,
目的探讨原发性肝脾T细胞淋巴瘤的临床表现、病理学特征和免疫表型特点。方法对3例原发性肝脾T细胞淋巴瘤患者的临床资料进行回顾性分析并对相关文献进行复习。结果患者肝脾
主从式集装箱吊具结构紧凑合理,作业方便,安全,适应铁路发展趋势,具有广阔的应用前景。
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内