论文部分内容阅读
目前在通信行业,包括传统和虚拟运营商,已达到千万、亿甚至近十亿级用户数。在这个用户规模下,运营商的ERP系统面对了海量数据规模的压力。而且,通信行业的ERP系统设计上致力于提升业务流程的效率,这样才能紧密联系各职能部门,做到有效管理和统一决策。考虑到各系统间的数据交互十分复杂和频繁,希望借助大数据技术加速ERP系统的查询能力。大数据技术主要以分布式文件系统和大数据计算框架构成,并在大规模使用时需构建资源管理和资源共享能力。对于计算框架,针对不同的工作负载包括了批处理技术、流式处理技术、实时查询技术、数据挖掘技术以及搜索等方面,涵盖了通用的业务需求。但在特定的使用场景,比如通信运营商的ERP环境,需要融合上述技术,分而治之,制定合理的技术方案,使海量数据为庞大的用户群发挥出能量。针对这种现状,本文试图从通信行业的大数据技术使用场景展开,探讨在不同工作负载下的分层体系,如何高效地进行数据抽取、清洗和加载工作。另外,研究了数据资产管理的内容,将数据统一管理,作为企业数据使用的基础,减少数据冗余,提高数据调用效率。此外还提出了对数据资产进行校验和审计的方法,通过事前事中控制和事后审计的方式确保进入同一个大数据平台的数据合规性。在大数据应用即服务方面,文章阐述了对大数据平台进行统一资源调度的方法,以及对于数据服务能力开放的探讨。文章的核心内容是基于大数据技术的查询系统设计与实现。该部分内容对企业内海量数据查询的需求进行分析,对基于大数据的查询系统的基础平台部署进行了阐述,对业务流程设计进行了详细研究。接着通过一个查询系统的设计实现,展示了如何通过结合大数据搜索技术和内存计算技术来加速电信运营商ERP系统而进行的部署,最后对安全性和处理性能进行了评测。