论文部分内容阅读
伴随着第三代通信网络的日益完善和普及,网络的规模急剧变大,设备的复杂度也大大提高,如何快速解决呼叫故障,保证网络运行的质量,成为网络维护人员的当务之急。呼叫追踪作为信令追踪衍生的新功能,是网管系统的一个重要子系统,是解决呼叫故障、保障网络运行质量的强有力手段。不同公司网管系统的差异导致目前市场上的信令追踪系统不能很好的满足实际应用需求,而用户数量骤然增多导致大量追踪数据的处理会降低网络优化产品的整体性能,因此研究并开发与网管系统配套的、适合处理大量数据的呼叫追踪系统是必要的。本文针对呼叫追踪系统处理大量数据的需求,分析了数据、环境等对系统性能的影响,结合近些年在大规模数据处理领域中使用较多的Hadoop平台,设计并实现了一个基于Hadoop的呼叫追踪模拟系统,模拟实际的应用场景,进行算法的分析研究及系统性能的评估。本文的主要研究工作如下:(1)设计并实现一个基于Hadoop平台的呼叫追踪模拟系统,分析系统的三个主要模块(模拟数据源、数据处理、GUI界面)的功能,并完成具体的设计。其中模拟数据源模块从真实的数据样本中不断模拟出数据,并将数据写入分布式文件系统HDFS中;在数据处理过程中,编写合适的Map和Reduce函数,利用Map/Reduce模型实现呼叫追踪数据的分布式处理;(2)在系统实现及现有硬件资源的基础上,研究部署系统的网络拓扑结构、软件环境的配置,并结合模拟数据源中的可配参数设计全MR与非全MR数据、压缩与分压缩数据、伪分布式和小集群三组对比实验,研究不同的因素对系统中作业运行时间的影响;(3)研究Hadoop常用的三种调度算法(先进先出、计算能力和公平调度),在此基础上根据呼叫追踪系统的实际应用场景,对公平调度算法进行改进。将作业池的划分按照数据类型进行,并通过理论分析和推导,设计了基于作业优先级、用户优先级和可配的等待时间阂值相结合的作业权重计算,并对改进后的算法进行仿真实验。本文通过设计并实现基于Hadoop的呼叫追踪模拟系统验证了将Hadoop应用于呼叫追踪数据处理中的可行性;针对呼叫追踪系统的实际应用场景,对Hadoop的公平调度算法进行改进,设计了基于时间阈值的组合优先级调度算法,并验证了该调度算法下系统资源分配的合理性及该算法对系统需求的满足。