论文部分内容阅读
近年来随着国产多核处理器技术的日益成熟,特别是龙芯系列处理器的研究深入,越来越多的场合开始使用国产多核处理器。这就要求国产多核处理器在可靠性、健壮性、稳定性方面进行深入研究。本文以此为目的对国产多核处理器可靠性展开研究。软件模拟故障注入技术是可靠性技术研究中其他技术的前置技术,对其研究具有重要启发意义。本文以龙芯3A多核处理器平台为评测平台,设计并实现了一种软件模拟故障注入系统。本文以龙芯3A硬件平台为起点,研究了龙芯3系列多核架构、GS464架构IP核、操作系统等技术。在此基础之上,根据经典的故障注入模型FARM,提出基于龙芯3A的故障模型LS3A-FARM故障模型。LS3A-FARM模型系统的根据龙芯3A架构特性有针对性的定义了故障集、激活集、回收集以及度量集。系统的阐述了故障集的四元组定义方式;激活集的工作负载设计原则;回收集的回收参数;度量集的衡量指标等内容。在定义了故障模型基础之上,本文进一步阐述了面向龙芯3A平台的软件模拟故障注入系统(LS3A-SWIFIS)的C/S架构设计与实现原理。在服务器端,围绕“故障集模型实现原理”以及“故障注入器设计与实现”两个点展开。故障集模型方面,具体的说明了实现如何将四元组转换为一次具体的故障注入;而故障注入器则详细的说明了如何使用PTRACE系统调用实现具体的故障注入。此外,服务器端设计还包括故障检测、故障日志记录、网络通信等技术的设计要点。而在客户端,则简单介绍了客户端与服务器通信的方式以及界面的设计原则。最后,本文通过LS3A-SWIFIS对龙芯3A进行了系统的评测。评测的主要指标包括:故障范围/有效性评测;故障分布与敏感性评测;性能评测等。故障范围/有效性评测了完成了LS3A-SWIFIS故障注入的可达范围的评测以及证明LS3A-SWIFIS的可用性;故障分布与敏感性评测阐明了不同注入位置对故障注入的敏感性以及故障注入后产生故障的分布情况;性能评测给出了故障注入对进程运行效率的影响。