面向海量数据存储的Erasure-Code分布式文件系统I/O优化方法

来源 :第18届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户：hujialian

【摘要】

：

【作者】

：

Yan Lin 严林 Xing Jing 邢晶 Huo Zhigang 霍志刚 Ma Jie 马捷

【机构】

：

Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190; Graduate University

【出处】

：

第18届全国信息存储技术学术会议

【发表日期】

：

2012年10期

【关键词】

：

海量数据存储分布式文件系统性能优化测试平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着海量数据的快速膨胀,机群文件系统的存储方式正在逐步从复本向Erasure Code过渡.Erasure Code存储能够以更低的存储空开销提供更高的可靠性.然而,由于Erasure Code存储需要通过编码生成编码数据,在存储原始数据和编码数据过程中更容易产生磁盘争用和不均衡负载,从而影响整个存储系统的I/O性能；同时,Erasure Code存储在写回编码数据时,数据一致性和数据缓存之间存在冲突,传统处理数据的无缓存方式和全缓存方式在机群文件系统中都存在很大的局限性.针对这两个问题,本文提出了一种包括均衡负载的数据放置策略和编码缓存的一致性维护策略的Erasure Code机群文件系统I/O优化方法.通过在我们开发的Erasure Code分布式文件系统ECFS的实验测试表明,使用这种优化方法后机群文件系统的聚合带宽能够提高95.53％.

其他文献

基于改进的SMOTE和RST的新型混合重取样算法

分类是数据挖掘和知识发现的重要任务之一，非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况，非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。针对非均衡数

会议

非均衡数据集分类性能预处理方式混合重取样算法

基于聚类直方图的数据流聚集查询算法

数据流聚集查询有着应用广泛，在计算和存储资源不足条件下，必须考虑构建有效概要数据结构，获取近似聚集查询结果。针对不符合典型分布的电力通信光纤监测数据流，提出一种基于聚类的直方图构建方法，获取流数据分布的不规则子区间集合；当新到达流数据，实时更新直方图；通过控制桶内元组计数密度误差，动态维护直方图桶结构，以适应窗口内数据实际分布特征。给出基于聚类直方图的数据流滑动窗口聚集查询算法。分析了算法精度、桶

会议

数据流聚集查询算法聚类直方图构建方法

基于主动学习和混合型特征选择方法的网络入侵检测研究

网络入侵检测技术是入侵检测领域研究的热点和难点内容。基于主动学习算法和混合型特征选择方法，本文提出了一种网络入侵检测的新方法，能够高效地检测网络入侵。通过大量基于著名的KDD Cup 1999数据集的实验，表明其相对于传统的入侵检测方法在保证较高检测率的前提下，有效地降低了误报率。

会议

网络安全入侵检测主动学习特征选择

基于内存的抽道集程序并行性优化方法研究

抽道集是石油地震勘探数据处理过程中的一个重要的中间环节，是典型的I/O密集型应用，它在运行的过程中对I/O子系统产生了很大的压力。为了提高抽道集程序的执行效率，消除I/O瓶颈，文章设计了基于高性能计算机内存的抽道集程序优化方法。通过将数据迁移到部分计算节点的内存上，利用高性能计算机的高速互联通信系统加快数据存取过程，有效的利用了计算节点之间通信的高带宽和低延迟的优点。结果表明该方法有效的提高了抽道

会议

抽道集程序并行性优化方法高性能计算机内存

时空轨迹数据的并行采集与存储

为解决数值模拟并行轨迹数据的输出与访问共性问题，本文实现了端到端的存储解决方案。提出了扩展的轨迹数据模型，支持复杂并行轨迹数据的表示与组织；提供直接易用的轨迹数据读写接口，屏蔽底层复杂的数据处理过程；重叠数据并行通信与合并，提供可扩展的并行数据采集技术；提供可扩展文件数组存储技术，满足多种文件访问模式需求；直接耦合可视化系统，方便用户进行轨迹数据的浏览与可视化分析。目前，研究成果已在模拟激光聚变过

会议

时空轨迹数据并行采集数据存储数值模拟

视频监控中服务资源提取策略的研究

服务资源提取是影响系统效率的重要因素。针对目前监控系统可控性、扩展性不足的问题，设计了一种能够进行大规模接入的分布式视频监控系统架构，提出了服务资源按类别先请求后提取、集中控制，监控终端集中管理的策略，介绍了数据资源、媒体资源的提取过程和接入容量扩展实现方案，最后给出了子系统的测试结果。

会议

视频监控系统服务资源提取策略系统架构优化设计

通用网络存储协议的研究与测评

“流量本地化”技术是一种缓解传输压力的有效途径，其核心即在于解耦应用与数据存储。本文在缓解骨干网压力的“流量本地化思想”的基础之上，分析研究在网络边缘引入“通用网络存储协议”的解决方案。文章分析了嵌入式环境和通用计算机环境下HTTP、NFS、iSCSI三种存储协的基本原理和实现方式，并重点针对三种协议在不同应用场合中的性能表现进行对比测试，为“通用网络存储协议”的设计实现提供参考建议。

会议

通用网络存储协议性能表征测试方法

一种基于Petri网的语义Web服务组合动态检测技术

Web服务组合验证对增强服务安全、保证系统质量具有重要意义。为保障Web服务组合的正确运行，提出了一种形式化和在线检测结合的Web服务组合验证方法。在动态检测的实时数据的基础上，通过语义Web服务组合到Petri网的映射和基于可达图的服务组合一致性检测方法，实现语义Web服务组合动态交互的形式化验证，最后通过实例进一步说明该方法的可行性。

会议

Web服务组合动态检测技术Petri网可行性分析

一种混合时态序列模式挖掘算法

现有的大多数序列模式挖掘算法或者没有把项出现的时间作为一个因素来考虑，或者只考虑序列项作为点时刻而出现，而没有考虑到有的序列项是存在于一个时间范围，因而挖掘结果可能会遗漏一些有趣的模式。提出一种混合时态序列模式挖掘算法，对同时包含点时刻的项和时间区间的项的序列进行挖掘，利用有效的剪枝策略和时间区间合并，分区间精确显示混合时态序列模式挖掘结果，实验证明，算法是有效的，并且具有较好的可扩展性。

会议

序列模式挖掘算法混合时态时间区间

挖掘用户标签的增强型社区网页聚类算法

网页的内容信息对于提高聚类质量来说并不完全够用，针对网络社区网页之间存在的天然链接关系，本文提出了一种挖掘用户标签的增强型社区网页聚类算法。本文采用多种距离度量方法，并将网页之间的链接关系挖掘出来，包括相同用户链接，相同标签链接和相同用户相同标签链接信息，然后将社区网页的内容信息相似度和社区网页的链接关系结合起来判断社区网页所属的类别。实验表明，提出的算法是有效的。

会议

增强型社区网页聚类算法用户标签链接关系

面向海量数据存储的Erasure-Code分布式文件系统I/O优化方法

与本文相关的学术论文