论文部分内容阅读
MIC统计量常被用来探测数据集中变量间关系的类型和特征.然而,随着数据集中变量个数和坐标点的增多,该方法的时间复杂度也大幅增加,不能满足大数据集分析的要求.基于此,本文对该方法进行了基于MapReduce模型的并行化.文中的并行化方法首先对原算法进行了更细颗粒度的划分,然后采用一种基于Map-Reduce-Map任务链的并行模型,从而有效的增加了并行计算单元和降低了不必要的系统开销.最后实验验证了改进后算法和原算法在准确率方面具有等效性,在运行速度方面具有显著的提升和良好的扩展性.