论文部分内容阅读
【摘要】本文简要介绍了我台高塔发射机房监播系统的硬件架构、软件安装和业务配置,通过对运行维护工作中出现的典型故障及系统存在的问题进行技术分析,提出相应解决方案,确保系统平稳运行,进一步发挥监播系统在安全播出工作中的重要作用。
【关键词】监播服务器 转码机 多画分割 软件配置 业务配置 故障分析 故障处置
四川电视台播出部高塔发射机房主要负责成都及周边地区川台信号、中央台信号的地面覆盖及成都公交移动的无线覆盖,发射业务包括模拟电视、地面数字电视、移动数字电视。信号源多、频点多、节目多;模拟、标清、高清电视同时运行是川台高塔机房的特点。安全播出的重要环节是监测、监控。电视节目播出质量与安全性要得到保障,需在每个环节实现对信号的实时监测,以便出现问题及时处理。
高塔机房监播系统采用了博威康公司智能监管平台对业务进行监测、监视、监控,可以实现图像层报警、码流层TR101-290的3级别报警、指标报警等的实时监测。系统具备异态录像存储、节目录制、报警信息查询等功能,可以实现川台高塔机房信源和信号回监系统的数据查询,有力地保障了机房信号的安全运行。
以下对高塔机房监播系统进行介绍,同时对该系统运行中一些常见故障进行分析。
一.高塔机房监播系统平台
机房监测平台是基于B/S(浏览器/服务器) 架构,主要负责对设备的管理、业务配置、业务处理、日常监测。
1.监播系统硬件设备
监播设备主要由AD988HP集中式监测主机、IPM48Plus多画面处理器、TSC32多通道转码录像主机构成。AD988HP是专用硬件监测、监管、测量设备,支持无线接收,支持MPEG-2高、标清和H.264/AVS高、标清节目的监测;IPM48Plus可实现32通道视频节目的IP/U SB信号接入、多格式解码、32画面同屏显示、分屏显示、故障报警等核心业务;TSC32转码录像主机是智能监管体系的核心设备,单机可实现32通道视频节目的“接入、转码、储存”的综合业务。
2.信号监播流程及拓扑图
数字信号从AD988HP的6个板卡进入,每个板卡有两路信号输入端;无线地面波数字信号通过天线接收进入IPM48Plus多画面处理器进行处理,通过平台软件对板卡节目流进行扫描,添加节目路由,在多画面管理中对要监播的节目进行添加,在液晶大屏上就能看到相应的节目。通过多通道转码录像设备还可以对所录节目进行存储。网管软件还可实现报警管理、内容管理。9路模拟信号从模拟信号处理器输入,通过模拟监测服务器输出3路主路+3路备路+3路回监信号上大屏供模拟信号监看。
3.监播系统软件和软件安装配置
(1)软件介绍
SDV2.0监播系统软件主要由以下软件构成:JavaJDKl.6、Tomcat-6.0.10、Oracle 9.2.0.1.0、PL/S QLDeveloper等软件。通过这些软件,构建数据库服务器和Web服务器平台,用户通过IE可以实现各种设备的管理和业务配置,轻松实现对各种信号的监测监控。
(2)软件安装和配置
软件安装需要按以下顺序进行安装:JDK安装一Tomcat安装 Oracle服务器安装 数据库客户端安装 用PL soL与Oracle服务器进行连接 导入SDV2.0系统用的表一部署并配置Web2.0项目 登入SDV2.0进行监播系统硬件的添加和业务配置。
软件安装和配置可以参考软件手册进行。不做详细阐述。只对需要注意的地方进行说明。本系统Oracle服务器、Web服务器(Tomcat 6.0)安装在同一台数字服务器上。先规划好Tomcat服务器、Oracle服务器、还有其他设备IP,软件安装路径。安装软件后,通过导入表、部署配置Web2.0,通过IE登入SDV2.0监测监控平台,便可以实现对设备和业务的管理和配置。
二.监播平台配置
通过IE登录SDV2.0服务器,进行设备管理和业务配置。SDV2.0主要管理AD988前端监测系列、IPM多画系列、TSC转码系列等设备。
先配置资源管理、采集管理、多画面节目设置、转码管理,对异态节目源、自动节目源进行设置,实时异态是对所有图像层、码流层、信道层的所有报警项进行实时监测回显。主要报警包括:图像报警9类;TR-290报警一级有7类,二级6类,三级10类;指标报警8类。以下是报警项截图:
通过内容管理可以实现录像管理与历史查看,可通过“开始时间”、“结束时间”、“手动事件”或“自动事件”等组合条件查询相应时间段产生的视频文件。
三.高塔机房监播业务配置
监播系统的业务配置主要是对机房信号源、编码设备输出信号和回监信号进行监测。高塔机房信源有三类:第一类是节目信号源,第二类是H.264和AVS前端系统编码输出信号,第三类是回监信号。
1.高塔机房节目信号源
4路网络公司SDH信号共17套节目;4路光纤信号15套节目;微波信号4套节目;卫星信号l路;模拟信号源6路。
2.机房前端系统编码输出信号
H.264系统20套节目;AVS系统21套节目。
3.模拟频点和数字频点回监信号
模拟频点3个(8CH、10CH、21CH)模拟回监信号3套;数字频点监测(CH-27、CH-47、CH-49)。
监视信号众多,需要合理规划,保证各路信号都要监测到位。对不同路由信号根据信号源的不同,在监视屏上合理规划。首先根据机房信号源和信号源类型,进行分类,对各类信号、各路由信号节目在大屏幕上的位置进行规划和定位,然后对每路输入信号进行扫描,添加节目路由,合理安排各路信号在多画面分割器上的位置,保证每路信号直观清楚在大屏上显示,当信号源出现问题时我们可以根据位置快速确定是哪路信号、哪个包节目出问题。 随着系统业务的改变和发展,可以随时调整大屏节目内容监测,保证信号和监播同步。满足机房不断增长的业务需求,以下是机房监播系统大屏幕效果图:
四.监播系统运维和故障分析处理
1.日常运维
机房监播系统大部分设备都是服务器建构, 诸如多画处理器、转码录像主机、数字服务器、模拟服务器、远程管理客户端等等,日常维护中需要做好运行维护工作,保障设备安全、软件运行稳定可靠。
(1)日常做好硬件设备维护,对设备除尘,检查设备风机、显卡风机,用测温软件测试CPU、主板、显卡温度和状态。发现问题及时处理。
(2)做好软件和服务器系统备份,业务发生变化后,要做好数据库备份。定期对系统和软件进行优化,对服务器进行重启,释放系统缓存资源。
2.监测系统各单元典型故障分析处理
以下从机房监播系统几个环节对系统日常运维过程中常出现的故障进行分析,为今后处理类似问题提供一些参考。
(1)多通道转码存储录像主机典型故障现象分析和处理
故障现象1:141转码机频繁死机,出现自动关机现象,后来出现电源不能启动。通过Intel Matrix StorageManager发现RAID 0端口1出现报错。
故障现象2:142转码机显卡风扇不转,发热严重,后来开机硬盘S.M.A.R.T检测报错,同时听见硬盘内部有咔咔响的声音。通过U盘PE系统进入,英特尔磁盘创建程序对磁盘阵列检测如下:
故障原因:141转码机故障原因是电源故障导致RAID 0中的的硬盘1损坏;142转码机故障原因是显卡风扇损坏,导致温度升高,同时磁盘阵列中的两个硬盘S.M.A.R.T检测报错,对硬盘换下检查已经损坏。转码机典型故障就是硬盘坏导致系统损坏、数据丢失。
故障分析:由于转码系统24小时在转码、录像、存储,硬盘长期工作在读写状态,时间久了容易导致硬盘坏掉。转码录像储存设备,为了满足海量存储需求和高速的读写速度,采用了3个1TB的硬盘,组成RAID 0架构,特点是高的存储性能和数据读取速度。但RAID 0不能提供数据可靠性保障也是其最大缺点,数据无冗余,如果一个磁盘失效,将影响整个数据。
故障处理:直接使用两个1T硬盘,组成RAID l阵列,安装好系统和软件,通过测试,软件运行稳定,还使用一键还原精灵软件对系统进行了备份。采用这种架构,系统和数据在硬件上做了备份,同时系统本身也做了备份,可以防止硬盘损坏和系统崩溃的情况出现。这种改变牺牲了读取速度和硬盘容量,换来了系统稳定和数据可靠。原系统在RAID 0架构下,系统本身没法做备份,就是做了,盘坏了,数据掉了,哪里找数据去恢复呢?假设要利用外置盘和光盘备份,由于阵列3T的海量,备份也费时费力。
(2)多画面处理器典型故障和处理
典型故障1:某台多画面机偶尔会出现某套节目黑屏或图像定格现象。查询报警又是正常的,节目源没有问题。
故障原因分析:这是由于多画面服务器IPM48Plusprov2.exe程序死机造成。
故障处理:方法有两个:一是对程序进行重启,在任务管理器里面对IPM48Plusprov2.exe进程结束掉,然后在桌面双击IPM48Plusprov2.exe程序重新启动;二是对多画服务器重启即可。
典型故障2:所有多画面屏幕、每套节目图像均有马赛克现象出现。 (这是与故障1区别的地方)
故障原因分析:监测主机和多画面处理器数据都是以UDP数据包格式发送业务,业务数据经过千兆交换机进行交互,当出现上述故障时,一般是网络产生“广播风暴”所致。广播数据充斥网络无法处理,并占用大量网络带宽,导致正常业务不能运行,甚至彻底瘫痪。网络设备故障、网卡故障、网线、网线头子、交换机环路、网络病毒等等都会产生广播风暴。
故障处理:网络产生广播风暴的判断和处理,一般采用sniffer,ethereal等软件进行迅速定位;对于网络拓扑结构不复杂的网络,可以通过手动排查。手动排查首先可以看网络环路是否、网线是否正常、然后可以依次拔掉交换机上的网线、服务器网卡网线看节目是否恢复正常进行判断。曾经遇到多画面处理器136网卡故障后,仍然向网络发送大量广播帧和非法帧,一拔掉该网卡网线,系统就恢复正常。该千兆网卡型号是Intel PR0 1000GT,用TP-LINK的TG-3269C的千兆网卡替换后恢复正常。
(3)集中式监测主机信号故障和处理
该设备比较稳定,较少出问题,出问题大部分都是在信号源部分,当信号源参数及PID发生变化,会导致多画面显示出问题,解决的办法是重新对输入信号进行扫描、添加节目路由,然后重新把节目配置到大屏上即可;另外,有时保存的多画面配置也会丢失,重新配置节目到多画面,保存即可恢复正常。
四川广播电视台高塔机房监播系统是2010年4月开始运行的,当时监播内容只有三套模拟信号。但随着事业发展,业务范围不断扩大,原有的系统根本无法满足需求。发射技术人员以高度的主人翁责任意识,通过自身的潜心钻研和过硬本领,有效完成了系统的后续集成和各种功能扩展,为确保安全播出发挥了重要作用。
【关键词】监播服务器 转码机 多画分割 软件配置 业务配置 故障分析 故障处置
四川电视台播出部高塔发射机房主要负责成都及周边地区川台信号、中央台信号的地面覆盖及成都公交移动的无线覆盖,发射业务包括模拟电视、地面数字电视、移动数字电视。信号源多、频点多、节目多;模拟、标清、高清电视同时运行是川台高塔机房的特点。安全播出的重要环节是监测、监控。电视节目播出质量与安全性要得到保障,需在每个环节实现对信号的实时监测,以便出现问题及时处理。
高塔机房监播系统采用了博威康公司智能监管平台对业务进行监测、监视、监控,可以实现图像层报警、码流层TR101-290的3级别报警、指标报警等的实时监测。系统具备异态录像存储、节目录制、报警信息查询等功能,可以实现川台高塔机房信源和信号回监系统的数据查询,有力地保障了机房信号的安全运行。
以下对高塔机房监播系统进行介绍,同时对该系统运行中一些常见故障进行分析。
一.高塔机房监播系统平台
机房监测平台是基于B/S(浏览器/服务器) 架构,主要负责对设备的管理、业务配置、业务处理、日常监测。
1.监播系统硬件设备
监播设备主要由AD988HP集中式监测主机、IPM48Plus多画面处理器、TSC32多通道转码录像主机构成。AD988HP是专用硬件监测、监管、测量设备,支持无线接收,支持MPEG-2高、标清和H.264/AVS高、标清节目的监测;IPM48Plus可实现32通道视频节目的IP/U SB信号接入、多格式解码、32画面同屏显示、分屏显示、故障报警等核心业务;TSC32转码录像主机是智能监管体系的核心设备,单机可实现32通道视频节目的“接入、转码、储存”的综合业务。
2.信号监播流程及拓扑图
数字信号从AD988HP的6个板卡进入,每个板卡有两路信号输入端;无线地面波数字信号通过天线接收进入IPM48Plus多画面处理器进行处理,通过平台软件对板卡节目流进行扫描,添加节目路由,在多画面管理中对要监播的节目进行添加,在液晶大屏上就能看到相应的节目。通过多通道转码录像设备还可以对所录节目进行存储。网管软件还可实现报警管理、内容管理。9路模拟信号从模拟信号处理器输入,通过模拟监测服务器输出3路主路+3路备路+3路回监信号上大屏供模拟信号监看。
3.监播系统软件和软件安装配置
(1)软件介绍
SDV2.0监播系统软件主要由以下软件构成:JavaJDKl.6、Tomcat-6.0.10、Oracle 9.2.0.1.0、PL/S QLDeveloper等软件。通过这些软件,构建数据库服务器和Web服务器平台,用户通过IE可以实现各种设备的管理和业务配置,轻松实现对各种信号的监测监控。
(2)软件安装和配置
软件安装需要按以下顺序进行安装:JDK安装一Tomcat安装 Oracle服务器安装 数据库客户端安装 用PL soL与Oracle服务器进行连接 导入SDV2.0系统用的表一部署并配置Web2.0项目 登入SDV2.0进行监播系统硬件的添加和业务配置。
软件安装和配置可以参考软件手册进行。不做详细阐述。只对需要注意的地方进行说明。本系统Oracle服务器、Web服务器(Tomcat 6.0)安装在同一台数字服务器上。先规划好Tomcat服务器、Oracle服务器、还有其他设备IP,软件安装路径。安装软件后,通过导入表、部署配置Web2.0,通过IE登入SDV2.0监测监控平台,便可以实现对设备和业务的管理和配置。
二.监播平台配置
通过IE登录SDV2.0服务器,进行设备管理和业务配置。SDV2.0主要管理AD988前端监测系列、IPM多画系列、TSC转码系列等设备。
先配置资源管理、采集管理、多画面节目设置、转码管理,对异态节目源、自动节目源进行设置,实时异态是对所有图像层、码流层、信道层的所有报警项进行实时监测回显。主要报警包括:图像报警9类;TR-290报警一级有7类,二级6类,三级10类;指标报警8类。以下是报警项截图:
通过内容管理可以实现录像管理与历史查看,可通过“开始时间”、“结束时间”、“手动事件”或“自动事件”等组合条件查询相应时间段产生的视频文件。
三.高塔机房监播业务配置
监播系统的业务配置主要是对机房信号源、编码设备输出信号和回监信号进行监测。高塔机房信源有三类:第一类是节目信号源,第二类是H.264和AVS前端系统编码输出信号,第三类是回监信号。
1.高塔机房节目信号源
4路网络公司SDH信号共17套节目;4路光纤信号15套节目;微波信号4套节目;卫星信号l路;模拟信号源6路。
2.机房前端系统编码输出信号
H.264系统20套节目;AVS系统21套节目。
3.模拟频点和数字频点回监信号
模拟频点3个(8CH、10CH、21CH)模拟回监信号3套;数字频点监测(CH-27、CH-47、CH-49)。
监视信号众多,需要合理规划,保证各路信号都要监测到位。对不同路由信号根据信号源的不同,在监视屏上合理规划。首先根据机房信号源和信号源类型,进行分类,对各类信号、各路由信号节目在大屏幕上的位置进行规划和定位,然后对每路输入信号进行扫描,添加节目路由,合理安排各路信号在多画面分割器上的位置,保证每路信号直观清楚在大屏上显示,当信号源出现问题时我们可以根据位置快速确定是哪路信号、哪个包节目出问题。 随着系统业务的改变和发展,可以随时调整大屏节目内容监测,保证信号和监播同步。满足机房不断增长的业务需求,以下是机房监播系统大屏幕效果图:
四.监播系统运维和故障分析处理
1.日常运维
机房监播系统大部分设备都是服务器建构, 诸如多画处理器、转码录像主机、数字服务器、模拟服务器、远程管理客户端等等,日常维护中需要做好运行维护工作,保障设备安全、软件运行稳定可靠。
(1)日常做好硬件设备维护,对设备除尘,检查设备风机、显卡风机,用测温软件测试CPU、主板、显卡温度和状态。发现问题及时处理。
(2)做好软件和服务器系统备份,业务发生变化后,要做好数据库备份。定期对系统和软件进行优化,对服务器进行重启,释放系统缓存资源。
2.监测系统各单元典型故障分析处理
以下从机房监播系统几个环节对系统日常运维过程中常出现的故障进行分析,为今后处理类似问题提供一些参考。
(1)多通道转码存储录像主机典型故障现象分析和处理
故障现象1:141转码机频繁死机,出现自动关机现象,后来出现电源不能启动。通过Intel Matrix StorageManager发现RAID 0端口1出现报错。
故障现象2:142转码机显卡风扇不转,发热严重,后来开机硬盘S.M.A.R.T检测报错,同时听见硬盘内部有咔咔响的声音。通过U盘PE系统进入,英特尔磁盘创建程序对磁盘阵列检测如下:
故障原因:141转码机故障原因是电源故障导致RAID 0中的的硬盘1损坏;142转码机故障原因是显卡风扇损坏,导致温度升高,同时磁盘阵列中的两个硬盘S.M.A.R.T检测报错,对硬盘换下检查已经损坏。转码机典型故障就是硬盘坏导致系统损坏、数据丢失。
故障分析:由于转码系统24小时在转码、录像、存储,硬盘长期工作在读写状态,时间久了容易导致硬盘坏掉。转码录像储存设备,为了满足海量存储需求和高速的读写速度,采用了3个1TB的硬盘,组成RAID 0架构,特点是高的存储性能和数据读取速度。但RAID 0不能提供数据可靠性保障也是其最大缺点,数据无冗余,如果一个磁盘失效,将影响整个数据。
故障处理:直接使用两个1T硬盘,组成RAID l阵列,安装好系统和软件,通过测试,软件运行稳定,还使用一键还原精灵软件对系统进行了备份。采用这种架构,系统和数据在硬件上做了备份,同时系统本身也做了备份,可以防止硬盘损坏和系统崩溃的情况出现。这种改变牺牲了读取速度和硬盘容量,换来了系统稳定和数据可靠。原系统在RAID 0架构下,系统本身没法做备份,就是做了,盘坏了,数据掉了,哪里找数据去恢复呢?假设要利用外置盘和光盘备份,由于阵列3T的海量,备份也费时费力。
(2)多画面处理器典型故障和处理
典型故障1:某台多画面机偶尔会出现某套节目黑屏或图像定格现象。查询报警又是正常的,节目源没有问题。
故障原因分析:这是由于多画面服务器IPM48Plusprov2.exe程序死机造成。
故障处理:方法有两个:一是对程序进行重启,在任务管理器里面对IPM48Plusprov2.exe进程结束掉,然后在桌面双击IPM48Plusprov2.exe程序重新启动;二是对多画服务器重启即可。
典型故障2:所有多画面屏幕、每套节目图像均有马赛克现象出现。 (这是与故障1区别的地方)
故障原因分析:监测主机和多画面处理器数据都是以UDP数据包格式发送业务,业务数据经过千兆交换机进行交互,当出现上述故障时,一般是网络产生“广播风暴”所致。广播数据充斥网络无法处理,并占用大量网络带宽,导致正常业务不能运行,甚至彻底瘫痪。网络设备故障、网卡故障、网线、网线头子、交换机环路、网络病毒等等都会产生广播风暴。
故障处理:网络产生广播风暴的判断和处理,一般采用sniffer,ethereal等软件进行迅速定位;对于网络拓扑结构不复杂的网络,可以通过手动排查。手动排查首先可以看网络环路是否、网线是否正常、然后可以依次拔掉交换机上的网线、服务器网卡网线看节目是否恢复正常进行判断。曾经遇到多画面处理器136网卡故障后,仍然向网络发送大量广播帧和非法帧,一拔掉该网卡网线,系统就恢复正常。该千兆网卡型号是Intel PR0 1000GT,用TP-LINK的TG-3269C的千兆网卡替换后恢复正常。
(3)集中式监测主机信号故障和处理
该设备比较稳定,较少出问题,出问题大部分都是在信号源部分,当信号源参数及PID发生变化,会导致多画面显示出问题,解决的办法是重新对输入信号进行扫描、添加节目路由,然后重新把节目配置到大屏上即可;另外,有时保存的多画面配置也会丢失,重新配置节目到多画面,保存即可恢复正常。
四川广播电视台高塔机房监播系统是2010年4月开始运行的,当时监播内容只有三套模拟信号。但随着事业发展,业务范围不断扩大,原有的系统根本无法满足需求。发射技术人员以高度的主人翁责任意识,通过自身的潜心钻研和过硬本领,有效完成了系统的后续集成和各种功能扩展,为确保安全播出发挥了重要作用。