论文部分内容阅读
【摘要】华为ATCA平台和原CPCI平台在业务能力的提供上保持一致,但ATCA平台采用集成度高的UPB(通用业务处理)单板,软件性能发挥硬件多核多CPU的优势,引入“GCU业务进程组”的概念。因此在硬件故障处理上与CPCI平台略有不同。本案例主要讲述ATCA平台下业务单板故障的处理过程,供大家参考。
【关键词】ATCU硬件平台GCUBSGCCU
一、故障背景
6月20日邯郸测试新局HDGS11上报0框1槽GCU单板故障,同时有M3UA链路故障告警。经过多次拨打测试发现被叫有时不能正常接通。由于上面配置有CCU/CDB/VDB/BSG进程模块,除了BSG模块是负荷分担外,其它都是主备用的,当时在1槽是主用的模块已经倒换到了0槽。但由于BSG上配置有M3UA链路,导致该BSG上的M3UA链路故障。
二、问题、事件描述
0框1槽GCU单板配置有CCU/CDB/VDB/BSG进程模块,除了BSG模块是负荷分担外,其它进程模块都是主备用的。在1槽GCU单板故障时,在1槽是主用的模块均倒换到了0槽。但由于BSG模块是负荷分担,1槽模块上配置有M3UA链路,所以导致该BSG上的M3UA链路故障。
三、分析与对策
1.单板故障原因分析从单板故障日志可以看到“VRD Power: Power supply failure.”的打印,即0框1槽单板VRD电源硬件故障失效且不稳定,引起单板内的VRD电源模块供电不足,单板异常下电;单板VRD供电不稳定导致单板反复重启,一直无法进入操作系统,频繁引起单板异常下电告警。
2.0槽的WCCU模块记录的到1401、1403BSG模块链路状态正常(这两个BSG在1槽单板,实际已经故障),造成三种拨测失败现象:现象一:取漫游号码时没有位置区,被叫失败。没有位置区时,POOL局点默认不会下发全网寻呼,因此也不分配漫游号码。没有位置区的原因,也是由于1300,1301VDB的用户位置更新失败(同样是位置更新的时候,这些WCCU将消息发到了故障BSG),删除了用户数据,做被叫时触发了被叫恢复,但POOL局点不会成功,因为POOL局点关闭了全网寻呼;现象二:取漫游号码失败。若HLR将PRN消息送到这些WCCU模块,返回PRN时,同样可能送给这两块BSG,导致失败。现象三:取路由失败。若BSC上来的业务在这些WCCU上处理,WCCU可能将取路由消息发给这两块故障BSG,而这两块BSG的链路是故障的,所有消息无法发出。发给其他BSG则正常处理。综述,只要用户位置更新成功,或者做一次主叫,就能解决现象一。若业务进入了异常WCCU和故障BSG这条路径处理,则出现呼叫受损。
3.出现异常WCCU和故障BSG路径的原因1槽单板上有1401,1403两个BSG模块,0槽和1槽的WCCU模块互为主备。单板故障后,平台检测到BSG故障,会通知0槽的1000至1007的WCCU模块刷新链路状态,WCCU正好是从备升主的倒换过程,此时刷新链路状态失败,这些WCCU仍然认为这两个BSG上的链路仍然是好的,所有消息有可能发给故障BSG,造成业务受损。
四、处理结果
经过分析此故障解决方式有三种:
(1)与故障单板形成主备关系的单板(如1槽和0槽),将该单板上WCCU模块复位(实际上只要复位由备升主的模块即可);
(2)更换故障单板,链路恢复后,能够正常处理消息;
(3)督促厂家进行软件补丁加载彻底解决该问题。
HDGS11的解决方案是对0槽单板的WCCU模块进行复位后告警消除,故障消失。
建议与讨论
对于ATCA硬件平台同时满足以下条件,则需要采取规避措施:1.硬件单板故障后无法正常启动;2.该单板存在WCCU,WCDB,BSG模块;3.该单板的BSG上面链路以前是正常工作的;故障现象:1.做用户跟踪拨测随机失败,局内或者局间,被叫在本局,发现这些WCCU模块的SRI消息20秒超时无响应或者PRN消息分配后没有IAM入局;2. UMTS或者GSM用户发话话务测量的接通率下降明显;3.话统任务中的全局失败原因值中的115和230原因值有明显增加【恢复措施和方案】恢复措施:和故障单板形成主备关系的单板(如1槽和0槽),将该单板上WCCU模块进行复位。
【关键词】ATCU硬件平台GCUBSGCCU
一、故障背景
6月20日邯郸测试新局HDGS11上报0框1槽GCU单板故障,同时有M3UA链路故障告警。经过多次拨打测试发现被叫有时不能正常接通。由于上面配置有CCU/CDB/VDB/BSG进程模块,除了BSG模块是负荷分担外,其它都是主备用的,当时在1槽是主用的模块已经倒换到了0槽。但由于BSG上配置有M3UA链路,导致该BSG上的M3UA链路故障。
二、问题、事件描述
0框1槽GCU单板配置有CCU/CDB/VDB/BSG进程模块,除了BSG模块是负荷分担外,其它进程模块都是主备用的。在1槽GCU单板故障时,在1槽是主用的模块均倒换到了0槽。但由于BSG模块是负荷分担,1槽模块上配置有M3UA链路,所以导致该BSG上的M3UA链路故障。
三、分析与对策
1.单板故障原因分析从单板故障日志可以看到“VRD Power: Power supply failure.”的打印,即0框1槽单板VRD电源硬件故障失效且不稳定,引起单板内的VRD电源模块供电不足,单板异常下电;单板VRD供电不稳定导致单板反复重启,一直无法进入操作系统,频繁引起单板异常下电告警。
2.0槽的WCCU模块记录的到1401、1403BSG模块链路状态正常(这两个BSG在1槽单板,实际已经故障),造成三种拨测失败现象:现象一:取漫游号码时没有位置区,被叫失败。没有位置区时,POOL局点默认不会下发全网寻呼,因此也不分配漫游号码。没有位置区的原因,也是由于1300,1301VDB的用户位置更新失败(同样是位置更新的时候,这些WCCU将消息发到了故障BSG),删除了用户数据,做被叫时触发了被叫恢复,但POOL局点不会成功,因为POOL局点关闭了全网寻呼;现象二:取漫游号码失败。若HLR将PRN消息送到这些WCCU模块,返回PRN时,同样可能送给这两块BSG,导致失败。现象三:取路由失败。若BSC上来的业务在这些WCCU上处理,WCCU可能将取路由消息发给这两块故障BSG,而这两块BSG的链路是故障的,所有消息无法发出。发给其他BSG则正常处理。综述,只要用户位置更新成功,或者做一次主叫,就能解决现象一。若业务进入了异常WCCU和故障BSG这条路径处理,则出现呼叫受损。
3.出现异常WCCU和故障BSG路径的原因1槽单板上有1401,1403两个BSG模块,0槽和1槽的WCCU模块互为主备。单板故障后,平台检测到BSG故障,会通知0槽的1000至1007的WCCU模块刷新链路状态,WCCU正好是从备升主的倒换过程,此时刷新链路状态失败,这些WCCU仍然认为这两个BSG上的链路仍然是好的,所有消息有可能发给故障BSG,造成业务受损。
四、处理结果
经过分析此故障解决方式有三种:
(1)与故障单板形成主备关系的单板(如1槽和0槽),将该单板上WCCU模块复位(实际上只要复位由备升主的模块即可);
(2)更换故障单板,链路恢复后,能够正常处理消息;
(3)督促厂家进行软件补丁加载彻底解决该问题。
HDGS11的解决方案是对0槽单板的WCCU模块进行复位后告警消除,故障消失。
建议与讨论
对于ATCA硬件平台同时满足以下条件,则需要采取规避措施:1.硬件单板故障后无法正常启动;2.该单板存在WCCU,WCDB,BSG模块;3.该单板的BSG上面链路以前是正常工作的;故障现象:1.做用户跟踪拨测随机失败,局内或者局间,被叫在本局,发现这些WCCU模块的SRI消息20秒超时无响应或者PRN消息分配后没有IAM入局;2. UMTS或者GSM用户发话话务测量的接通率下降明显;3.话统任务中的全局失败原因值中的115和230原因值有明显增加【恢复措施和方案】恢复措施:和故障单板形成主备关系的单板(如1槽和0槽),将该单板上WCCU模块进行复位。