论文部分内容阅读
随着信息时代的迅速发展,海量数据在各个领域中产生。但在对数据运算过程中,其载体——Hadoop分布式文件系统在存储机制上存在一定缺陷,小文件过多将导致集群因负载增高而产生运行率下降的问题。针对因小文件而产生的存储缺陷,提出一种基于云计算的优化策略:通过数据平衡算法将小文件合并为合理的大文件,再将LZO无损压缩编码融入计算任务中,实现对大数据运算的效率提高。