论文部分内容阅读
相关分析源于统计学的开创时期,是统计学重要的一个分支。至今,相关分析仍然是多个领域的研究热点,特别是统计信号处理领域。相关系数是度量两个随机变量或两路信号之间统计关系强弱的常用工具,常用的相关系数有四种,分别是皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数、基尼相关系数。但是,实际应用当中,经常需要度量多个通道信号之间的关联程度。在这种多通道信号的情况下,很自然的想到利用全部通道数中两两不同通道信号之间的相关系数的平均值作为衡量多个通道信号之间的关联程度的量化指标。由此相关研究人员根据四种常用相关系数提出了平均皮尔逊相关系数(average Pearson’s Product Moment Correlation Coefficient,APPMCC),平均斯皮尔曼相关系数(average Spearman’s rho,ASR,经常被称为肯德尔和谐系数),平均肯德尔相关系数(average Kendall’s tau,AKT)以及平均基尼相关系数(average Gini Correlation,AGC)。受肯德尔和谐系数的启发,人们将描述多个通道信号关联程度的指标就称为和谐系数。随着大数据时代的到来,相关分析需要处理的数据规模日益增大,而目前GPU并行计算在大规模数据计算中应用广泛。受着这两方面的影响,本文提出一种和谐系数并行计算的统一实现框架。并做了如下几个方面的工作:第一、通过对当前几种流行的并行计算编程环境进行比较,选择了CUDA作为GPU并行计算的实现工具,并且通过编程实现矩阵相乘的例子,说明了使用共享存储器取代全局存储器访问来进行性能优化的重要性。第二、将四种相关系数定义表达式等价变换成统一类似的结构,分子和分母之间的运算相互独立且在编程实现过程上很类似,可并行性非常高。进而提出了一种和谐系数并行计算的统一实现框架。只要调节少量参数,就能切换求不同的和谐系数。第三、在CPU平台、基于CUDA的GPU并行计算平台做大量的对比实验,来测试基于本文提出的和谐系数并行计算统一实现框架下计算四种和谐系数的性能优势。在实验中得出两点结论:一、当通道数较大时,使用本文提出的基于CUDA的并行计算统一实现框架计算和谐系数性能优势很明显。二、AKT、AGC比APPMCC、ASR更适合并行计算