遥测技术在云数据中心网络运维中的应用

来源 :中国新通信 | 被引量 : 0次 | 上传用户:qqq1254
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。遥测技术可以满足用户要求,支持运维系统对监控设备的全量指标采集、监控数据拥有更高精度和更加实时、监控过程对设备自身功能和性能影响小,为网络问题的快速定位、网络质量优化调整提供了最重要的大数据基础,将网络质量分析转换为大数据分析,有力的支撑了云网络精细和智能运维的需要。通过Telemetry协议直接从底层硬件秒级获取丰富的业务运行状态及性能数据,全景可视化展示云数据中心网络的整体运行情况,丰富的业务流示图为云网络精细运维、敏捷响应及优化提供有力数据支撑,助力网络智能运维。
  【关键字】    遥测技术    网络    云数据中心
  一、数据中心向云数据中心转变,网络复杂度不断增加。
  当今,数字经济蓬勃发展,信息技术已深度融合到经济社会的各个领域,各种互联网应用像支付、打车、外卖等应用,都正在融入并改变人们的工作及生活方式。这些互联网应用的稳定运行越发显得重要,作为承载互联网应用的云数据中心网络,任何一条线路及系统故障都有可能对用户产生严重影响。电信运营商作为大型云数据中心网络提供商,面对用户流量需求爆炸式增长和复杂多样的网络需求,也以云和数据中心为抓手,积极构建支撑数字经济发展的稳固基础底座。
  然而随云计算、大数据、人工智能等新技术的兴起和成熟,也推动了互联网数据中心产品、规模和技术的快速升级和转型。
  首先,网络规模不断扩大,云数据中心接入带宽从传统的10Gbps升级到25Gbps/100Gbps,出口带宽达到10Tbps以上。
  其次,网络架构复杂度增加,引入SDN(Software Defined Network,软件定义网络),实现传统网络资源、服务器资源及存储资源的云网一体化整合。
  最后,越来越多的高性能和低时延应用,如GPU、HPC、AI等业务严重依赖数据中心网络传输质量,对网络性能提出更高带宽容量、更低时延的连接要求。
  二、云数据中心网络运维面临的挑战
  云数据中心网络的设备规模日益增大,承载的业务越来越多,用户对网络运维也提出了更高的要求,包括监控数据拥有更高的精度以便及时检测和快速调整微突发流量,同时监控过程要对设备自身功能和性能影响小,以便提高设备和网络的利用率,特别是云网一体的融合网络,对Underlay和Overlay网络的运维都提出了更高的挑战。如何保障其稳定、可靠及可控运行。
  从运维角度,需要更加精细、智能的网络运维监控系统,才能实现对网络高效管理。如何建立端到端的业务可视运维系统,建立智能化的监控中心,构建高效、精细地管理云数据中心,为业务提供可靠、稳定的网络服务,成为云数据中心网络运维面临的一大挑战。
  然而,传统基于CLI、SNMP机制的被动运维模式,因存在通过拉模式来获取设备的监控数据,不能监控大量网络节点,限制了网络增长;精度是分钟级别,只能依靠加大查询频度来提升获取数据的精度,但是这样会导致网络节点CPU利用率高而影响设备的正常功能;由于网络传输时延的存在,监控到的網络节点数据并不准确。这种被动响应、故障定位迟缓等网络监控系统,管理效率越来越低,已无法跟上时代的步伐,无法满足数据中心云网络运维要求。
  因此,面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。能够在不影响设备的性能和功能的情况下实现更高精度的网络数据监控。能够快速、精准地掌握全网设备、链路和业务的实时运行状态,可以通过自动化平台收集信息,快速对网络进行适配,提升响应速度和运维效率。
  针对影响业务体验、用户感知的性能问题如丢包、卡顿等故障,需快速根据转发路径时延情况确定故障点。因此,云数据中心网络监控系统需快速定位哪台网络转发设备的哪个端口发生丢包、实时监控每台设备的Buffer、流量等使用情况、快速定位故障的具体设备、转发路径、故障端口、故障链路等信息,迅速找出故障根因并修复。
  网络遥测技术可以满足这些网络管理要求,其监控数据拥有秒级的精度时时检测和快速调整微突发流量,同时监控过程对设备自身功能和性能影响小,大大提高设备和网络的利用率,为智能运维系统管理更多的设备提供了可能,其高效的数据获取方式和海量的运行数据,为网络故障的快速定位、网络运行质量优化提供了最关键的大数据基础,通过对大量网络运行数据的大数据分析,可快速定位故障根因,为网络故障的修复和网络质量的优化提供决策依据,为业务网络流量实现智能调度,从而支撑云数据中心网络的智能运维。
  三、网络遥测技术概述
  网络遥测(Network Telemetry)是一种从虚拟设备或物理设备上远程采集运行状态数据的技术,并且具有实时、高速、准确的特点。被控设备通过推送模式根据采集周期、采集表项主动向采集控制器发送性能和流量数据。相对传统拉取模式的一问一答式交互,网络遥测技术提供了更实时、更丰富、更高速的数据采集功能。不但节省了问答式网络链路开销,更是以秒级速度实现对被控设备运行数据的高速收集,实时感知网络运行状态。遥测技术是设备交换芯片在处理数据包的同时,根据报文转发路径自行收集性能参数和流量状态的一种带内网络技术INT(In-band Network Telemetry)。狭义的Telemetry是指设备特性,广义的为是一个闭环的监控系统事实上,Telemetry并不是新发明,Netstream和NetFlow早已实现了对网络流量的采样推送,但此类技术推送的是原始数据流采样信息,它根据报文的目的IP、目的端口号、源ip地址、源端口号、协议号和tos来区分流信息,并针对不同的流信息进行独立的数据统计。而监控用户期望标准化的数据模型。面对海量的云数据中心网络,任意一项分析任务都需要处理大量数据,对分析工具的性能带来挑战。同时,此类技术获取不了全量网络状态信息,如cpu、内存、接口流量及网络事件日志等,需要snmp类协议采用查询应答方式机制实现分钟级数据收集,存在被动响应、效率低下和采集手段复杂等特点。网络遥测技术和SNMP、NETstream等技术相比,可实现更高的数据精度和更丰富的设备监控数据获取能力。   四、遥测技术的数据中心网络监控系统的应用
  基于遥测技术的网络监控系统由被管理的网络设备、采集器、控制器和分析器组成,采用INT和gRPC(Google Remote Procedure Call,谷歌远程过程调用)技术架构方案实现。
  采集器主要实现对被管理网络设备的数据收集,常常采用分布式部署,其规模根据被管理网络设备规模确定。控制器是对采集器及采集对象表项、周期和参数的统一控制。分析器是对采集器上报的数据进行整体的编码及分析。
  INT遥测技术采用订阅上报机制,通过设备底层芯片秒级收集网络转发运行数据,不占用设备cpu开销,随业务流转发路径实时检测。数据收集范围涵盖了网络设备的转发面、控制面和管理面。但是无法对交换机的Buffer进行全面的管理,包括出、入端口/队列、缓存、丢包等实时监控,显得有些无力。
  于是,采用gRPC框架构建自动化运维接口,实现对交换机Buffer的全面实时管理,基于gRPC的运维接口设计,既满足运维对单个网络网元全面的Buffer实时性要求,又实现实现交换机与运维平台的解耦合,彼此透明、独立。通过对监控对象设备原始数据的收集、编码、传输、存储和分析,基于遥测技术的网络运维系统实现传统运维向智能运维的转变,包括3方面的核心能力:
  4.1 Telemetry全场景数据监控,网络实时可视
  采集器基于Telemetry协议收集设备、芯片、表项、Buffer、光模块等网络全景KPI数据,网络状态实时感知。各项采集数据通过采集器以PUSH+gRPC方式把各种指标结构化的标准数据持续推流分析器,通过数据分析,实现云数据中心全流量数据可视和随流的路径、质量检测。
  4.2系统亚健康智能分析,主动预防故障
  分析器通过采集器收集的设备关键KPI指标,从设备、单板、芯片、端口、队列、光模块多个维度呈现设备的运行状况。采用大数据算法,基于动态异常基线监测,识别网络劣化指标。分析器利用大数据技术,結合故障特征库进行跨数据领域关联分析,对光链路进行故障检修和故障概率测算,先于业务受影响前识别出异常光链路。提前发现隐患、预测故障。
  通过设备、网络、协议、overlay、业务五个维度实时或周期性产生网络评估报表,全面掌握网络状态,实时推送。实现故障的主动防御,在用户发觉问题前将问题解决,避免对业务造成影响。
  4.3利用网络流实现故障根因的快速定位
  大型云数据中心,往往是一个云网融合的网络,既又由交换机、路由器等物理硬件组成的物理underlay网络,也有在underlay网络上为业务或用户构建逻辑隔离的虚拟overlay网络空间,其网络架构复杂,技术堆栈层次多,对故障的识别带来极大困难。特别是一些对网络延迟要求较高的业务,如高性能计算、人工智能等微服务软件和分布式架构,业务调研关系更加复杂,数据交换更频繁。出现故障后,对故障的响应和定位要求更高。
  通过遥测技术可快速获取业务流检测信息,构建起租户到资源端到端数据流可视系统,任何一条数据流包括了报文转发路径信息、开始时间和结束时间、传输开销、路径时延迟、延迟时延等关键控制信息。对获取的大量业务流信息,根据业务overlay路径搭建模型,实现业务承载网络的路径流向分析,从而实现故障的智能识别。当业务出现指标劣化、访问缓慢、交易失败等性能问题时能及时感知,故障时能在各环境和节点快速定位找出根由。通过对故障分析,持续推动对网络的迭代优化,完善网络环境。在各节点、各服务运行环境的SLA一览无余。通过利用业务流跟踪计算路径和时延,系统实现故障快速故定位。
  五、总结:
  基于带内网络遥测技术和谷歌远程调用框架的遥测技术实现业务端到端的网络流量可视化,提升了网络监控数据的实时性和精确度,以业务流的方式实现对云数据中心网络的智能监控,保障业务稳定、可靠运行,助力数字经济蓬勃发展。
其他文献
【摘要】 在2008年,由中本聪提出设计的比特币,为人类打开了区塊链的大门。2016年,区块链已经成为世界热门技术,生活中越来越多的应用都离不开区块链。智能合约被认为是区块链2.0的代名词之一,在1995年被尼克·萨博首次提出[1],受限于当时的技术发展,智能合约并没有得到广泛的应用。随着区块链的发展,智能合约结合区块链技术已经成为许多应用场景的核心技术。本文结合国内外区块链发展的最新趋势,对智
引言  制造业对于社会、经济、环境都有着重大的影响。随着技术的更新,具有高计算能力、通信能力和控制能力的智能化制造设备将成为制造系统新的设备资源。信息物理系统(Cyber-Physical Systems——CPS)[1~5]正是为了解决新型智能物理设备互联问题而提出的,它实现计算资源和物理资源的紧密结合与协同[6]。何积丰院士认为“下一代工业是建立在CPS之上,将来CPS技术的发展和普及,将使得
随着经济的不断发展,当前我国的工业自动化水平越来越高,与此同时,物联网与各行各业的联系越来越紧密,当前在企业自动化培训工作中,除了要提升企业的工业自动化水平外,同时还要做好物联网思想的渗透。依托物联网技术助推企业更好地创新科技拓展市场,帮助企业赢得利润。本文从工业自动化中的物联网关键技术入手,浅谈物联网技术在工业自动化中的广泛应用。
【摘要】 高标清同步硬盘播出系统在电视节目播出过程中起着重要作用。随着科技的发展,使得电视技术日新月异,更新换代逐渐加快,从而让高标清硬盘播出系统向着高清方向逐渐发展,但现阶段高标清硬盘播出系统中仍然存在着部分故障问题。因此本文阐述了高标清同步硬盘播出系统的特点,并结合了高标清同步硬盘播出系统常见故障分析,对高标清同步硬盘播出系统的安全与维护展开了探究,以期能够为高标清同步硬盘播出系统相关工作人
【摘要】 近年来,对于国内金融业客服中心来说,由于人口红利逐渐消失,企业业务拓展增速放缓,如今企业更着眼于存量客户,深挖用户需求,提升存量用户价值。随着企业营销与服务渠道多元化,重心在促进营销转化与提升客户体验。移动互联网、大数据和智能技术的应用为客服中心带来了全新的发展契机,金融科技赋能新客服,重新定义了全渠道客服中心的服务价值。金融客服的服务方式,有语音、文字/图片和视频这三大种类。采用视频
近几年,随着无人机在军事和民用中地位的提高,对无人机地面管控系统的研究也逐步成为一个热点。针对无人机管控系统的应用,本文设计了一款基于WPF框架的PC端应用软件。该地面站能够实时显示无人机轨迹、飞行状态,可以加载本地作业任务或者是新建任务发送给无人机,同时可以对无人机的飞行数据进行实时分析,本文主要介绍了软件的功能和UI。
【摘要】 目前,对软件进行的所有测试工作通常都是由大数据来完成的。大数据的应用,不仅提高了信息处理的效率,促进了社会的快速发展,而且也带来了很大的生产价值。然而在对软件进行具体应用的时候,还存在很多的不足之处急需解决。只有深入的研究与分析这些不足之处,构建健全的修改方案,才可以使得软件的质量得到大幅度提升。在进行软件测试的时候,软件测试人员应该使用先进的科学技术,这样不仅使得测试效果得到大幅度提
【摘要】 在实际光缆施工熔接中,通常采用OTDR测试光纤接头损耗,但OTDR单向损耗包含了被接续两根光纤的背向散射特性差异,并不代表光纤真实的熔接损耗,因此采用单向损耗作为熔接损耗的判断标准,通常会造成误解和不必要的返工。而光源功率计的测试原理相对简单,只需从一个方向进行测试。本文基于某移动干线在开盘检测过程中采用OTDR测试出现的熔接损耗“大正大负”现象,特设计实验,分别采用OTDR和光源光功
利用室分设备的现有传输网络,完成对第三方定位等设备的接入,在实现5G覆盖的同时,也满足了多样化的室内场景垂直行业应用的定位需求,从而大幅降低了第三方定位设备的安装成本
【摘要】 近年来,在科学技术快速发展的背景下,信息通信网络技术也得到了相应的发展,借助该技术优势,能够为人民生活、工作和学习带来极大便利。但任何事物发展都需要从两个方面来看,在正确认识到其所带来的积极作用的同时,也需要看到其中所存在的问题。其中,表现最为明显的便是违法犯罪行为增多的问题。结合相关调查和研究可以发现:针对网络通信中诈骗现象越发严重的问题,党中央、国务院对此给予了足够重视。并结合具体