面向神威太湖之光的I/O性能监测与分析诊断系统

来源 :山东大学 | 被引量 : 0次 | 上传用户:jueduizhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决生产环境下I/O性能监测以及I/O冲突干扰分析的困难,本文着重在目前Top500排名第一的超级计算机神威太湖之光上展开工作。我们在神威太湖之光超级计算机上设计并且实现和部署了一个端对端的I/O性能监测与分析诊断工具--Beacon。Beacon可以多层次的采集神威太湖之光上的全机全路径的数据,包括前端计算节点,代理节点,存储节点以及元数据服务器。此外,为了保证Beacon的低开销,可扩展性以及稳定性,我们对所有采集的数据都进行了预处理,包括数据的清洗与压缩。从应用层开始分析,按作业分类对各个作业给出详细的I/O性能分析报告,可以让用户更好的知道自身课题的性能;并且加上对系统其他数据的分析,可以把单个应用的性能与其他应用联系在一起,可以很准确的找到课题的瓶颈。通过一些优化方法,可以解决问题,提高系统利用率。根据我们部署Beacon几个月的经验来看,Beacon不仅在用户课题自身的分析优化上有所帮助,而且在提高系统整体利用率,发现系统问题,减轻系统中干扰冲突等方面,也带来了巨大帮助。例如:我们发现了冲突干扰并不是仅仅出现在I/O负载很重的应用间,某些情况下,低效的I/O模式也会对其他应用带来很大的干扰。我们也提出了好几种优化手段,包括修改源代码,改变I/O模式(N-1),对请求调度的优先级调整,代理节点资源的再分配,存储节点的异常检测及异常移除。并且都基于真实应用实现了上述优化。本文的主要贡献如下所示:●我们为当前世界排名第一的超级计算机设计,实现并且部署了一个轻量级的端到端的I/O性能监测与分析诊断工具,Beacon;它可以多层次的采集,包括了计算节点,代理节点,存储节点以及元数据服务器的数据。●我们设计了在线实时的数据清洗、处理与压缩机制,以便于在生产环境下可以具有良好的扩展性与稳定性。我们对每个应用额外获取了混合在一起的底层信息,以便于将系统整体情况和应用行为相联系。这实际上可以帮助应用程序开发人员和系统管理员来识别和定位在神威太湖之光上的具体性能问题的具体位置。●通过我们对Beacon的部署,我们观察到I/O的冲突与干扰并不一定来自I/O负载很高(带宽非常高)的应用(之前研究普遍把注意力放在高负载的应用上)。某些I/O操作十分低效的应用也会对其他应该造成很大干扰。●基于Beacon的观察,我们提出了许多切实可行的优化方法,包括修改源代码,改变I/O模式(N-1),对I/O Request调度的优先级调整,代理节点资源的再分配,存储节点的异常检测及异常移除,并且都基于真实应用实现了上述优化。
其他文献
作为第五代移动网络的重要组网方式之一,小小区网络具有成本低、覆盖全面、可以大幅提高频谱效率和能量效率等优势。然而,随着移动数据流量的爆炸式增长以及新型应用如虚拟现
目前,困扰企业的“招工难”“用工荒”问题依然严峻,文章通过对广州市某区60多家企业的跟踪调研发现,导致问题的原因之一就是政府公共服务的缺失,忽视了外来工生存生活环境,无法保
以教师提供的食物和学生自带的食物作实验材料,让学生鉴定食物中的主要营养成分,培养学生提出问题、分析问题和解决问题的兴趣和能力。
本文通过对新疆公路改造项目过程中对小桥涵加固、维修方案的研究,总结出针对不同的技术状况,采用不同的养护对策,满足公路改造工程建设要求,以恢复桥涵使用功能。
根据福林-丹尼斯试剂与单宁生成深兰色物质,提出了吸光光度法测定啤酒花中单宁的方法,结果表明:兰色物质的最大吸收波长为760nm;摩尔吸光系数为3.072×10^4L/mol·cm;线性范围为0 ̄42mg/L;回收率在108.8% ̄95.0%之间,变异
高校共青团肩负着教育青年一代的重任。高校的学生组织建设是高校共青团建设工作的重要组成部分。本文通过问卷调查、深入访谈安徽财经大学学生干部,针对当前高校学生干部存
<正>中国英语学习者很少有机会直接从英语语境中习得这门语言。学生的学习只能局限在为数不多的教材和课堂上,加之有些教师仍遵循旧的教学模式,导致学生在实际应用英语时错误
会议
一氧化氮(Nitric oxide,NO)是近年来发现的一种小分子信号物质,其在采后保鲜方面的应用是近年研究的焦点,研究人员发现利用NO短时熏蒸能够增强果蔬的保鲜效果,延长果蔬货价期
从学术背景、学习和工作的经历、研究方向及成果、对人类学的前景展望等方面对格勒博士作了详细的介绍。格勒作为藏族人,热爱藏族同胞和本土文化,对藏民族的起源、历史、民族