论文部分内容阅读
软件衰退现象,即软件系统随时间而出现的状态退化和性能降低、乃至系统崩溃的现象,是影响系统可靠性的一个重要因素。为了减缓软件衰退所带来的危害,一种基于“前摄”的容错技术——软件恢复技术被提了出来。为了确认软件的衰退,并对可能的软件失效进行预测,系统资源数据的采集成为基于测量的软件恢复技术中的一个很重要的环节。本文就是在这样的背景下,研究应用于基于测量的软件恢复的性能监测工具,为上层应用提供数据,帮助其制定合适的恢复策略,从而提高系统的可靠性。 本文主要做了以下工作:(1)研究软件恢复技术,理解基于测量的软件恢复技术对于监测数据的要求,在尽量降低监测工具对被监测系统的资源消耗的同时,定期监测和采集系统运行期间的资源信息数据;(2)了解软件恢复技术的应用系统环境之一——集群系统,认识分布式系统对于监测的设计需求,同时分析网络技术的发展所带来的客户/服务器模式的优点,以及在性能监测设计中的作用;(3)了解开放式操作系统Linux,熟悉/proc虚拟文件系统,掌握Linux环境下的性能数据采集方法;(4)对性能监测工具PERFMON进行实验和分析,说明其功能作用。 实验证明,本文设计实现的性能监测工具PERFMON可以实现对多种系统资源数据的采集,并具有良好的伸缩性;对同一资源信息提供不同粒度的监测,满足不同应用的数据粒度需求。