Dirichlet过程混合模型聚类的GPU实现和优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:teliek
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种原理简单、应用广泛的数据挖掘技术,即把若干事物按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类。聚类分析在客户分类、文本分类、基因识别、空间数据处理、卫星图片分析、医疗图形自动检测等领域有着广泛的应用,已经成为数据挖掘领域的一个研究热点。  传统的聚类分析需要指定类簇的数目。然而实际应用中很多数据是未知的,在数据未知时,指定数目的传统聚类方法变得不大适用。基于Dirichlet过程混合模型的聚类算法,在对未知数据进行聚类时,可以不指定聚类的目标数目,而是根据数据的性质自动聚类出个数,从而达到较好聚类的效果。Dirichlet混合模型聚类算法也有不足之处,由于计算量比较大,造成聚类的时间成本增加,从而影响Dirichlet混合模型聚类算法的广泛使用。  基于GPU的通用计算主要研究如何利用GPU进行更为广泛的应用计算。NVIDIA发布的CUDA,使得开发非图像的应用变得相当简单。利用CUDA可以将GPU高速并行处理能力应用到大规模计算领域,从而大幅度提高程序的运算速度。  本文结合Dirichlet过程混合模型聚类算法的优越特性,利用GPU强大的计算能力,提出了基于GPU的Dirichlet过程混合模型聚类算法,高效地对类数未知的数据进行聚类。在此基础上,我对GPU代码进行了共享内存优化,提高数据重用性,以及改变并行策略等优化。这些方法进一步提高了程序性能,再加上对运行参数的调优,最终使GPU上的Dirichlet过程混合模型达到了接近200倍的加速。利用本文所述GPU程序处理微软的128维的人脸数据和UCI的561维人体动作数据,在保持聚类精度接近(NMI指标相差小于0.5)的情况下,与CPU相比,分别达到10和198倍的加速。这样在保证Dirichlet混合模型聚类算法的质量的同时,更提高了聚类算法的速度,从而有效的为进一步科研提供了有益参考。
其他文献
随着互联网技术的高速发展,社交网络极大方便了人们的工作和生活,为社会发展带来了巨大机遇,但同时也带来了用户隐私泄露的威胁。每个社交网络都包含用户的部分资料信息。如果攻
学位
随着企业规模的逐渐扩大,部署的网络应用系统越来越多,但是这些系统和应用是在不同的时期部署上去的,并且大多由不同的厂商来开发和维护的,这种情况给用户和企业都带来很大麻烦。
钻杆适用性评价是对含有缺陷的钻杆是否符合继续使用和如何继续使用的定量评价。本文对钻杆适用性评价的意义、基本原理、评价中处理不确定性问题的方法、钻杆疲劳寿命预测等
随着Internet技术的快速发展和日益成熟,在经济全球化的大趋势下,企业之间的重组和合并成为企业发展和壮大的必然的趋势,这就使得企业在异构、分布环境中的应用需求不断增长,
作为一个热门研究领域,众多国家都在对信息融合技术展开广泛深入的研究,其中,用于决策的信任度高的规则提取问题,是该领域目前急待解决的重要课题之一,因为信任度高的规则是
该文介绍了电力网络的现状,并对现有电力网络进行了安全层次的划分.在介绍防火墙概念、种类、发展状况、关键技术的基础上,进一步介绍了加密、散列算法、数字签名等技术,并对
该文通过对综合应用平台,J2EE软件构架技术、Struts构架技术及XML技术的研究,并深入分析了综合应用平台的特点,设计并实现了一个基于Web的综合应用平台,通过这一平台实现了公
提出建立冷连轧机轧制过程数据采集系统的必要性.建立该系统是冷轧现场和建立冷轧模型和系统仿真的需要.可以利用实际的生产过程数据对轧制过程进行分析,进而改进冷轧工艺,最
宽带无线IP网络将是未来网络发展的方向,同传统通信技术相比,其优势在于数据通信速率高、移动性好等。但是伴随着IP网络的发展安全问题日益突出。就现有的安全技术而言,IPSec是