聚类算法的GPU实现及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zilianyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、云计算、移动计算的发展,高质量高效率的自然语言处理应用有力的促进了智能人机交互的发展。然而,大多数的自然语言处理应用需要大规模的统计模型,高质量的算法以时间成本为代价。目前,图形处理器(Graphics Processor Unit,GPU)以其通用的并行计算模型和高度并行化的硬件设备已经得到广泛的应用。GPU通过挖掘算法中细粒度的数据并行性为提高算法的运行效率提供了有效的解决方案。本文主要分析两种自然语言处理算法并行化的可能性,仿射传播聚类算法和布朗聚类算法。在仿射传播算法中,我们采用层次仿射传播聚类算法的思想,通过分层聚类解决处理大规模数据时GPU显存容量限制的问题,采用CPU和GPU相结合的运算架构,利用基于线程映射和基于线程块映射的并行化策略优化算法计算量相对密集的部分。使用统一计算设备架构(Compute Unified Device Architecture,CUDA)编程模型重新实现该算法,在CPU和GPU环境下对比其性能。在中文手写识别应用中,相比于优化过的C实现最高加速比达到226.80倍。在布朗聚类算法中,采用固定窗口优化布朗聚类的思想,采用基于类别的二元语言模型,提出一种特殊的稀疏矩阵存储方式,利用基于线程映射和基于线程块映射的并行化策略结合多种同步策略优化算法各个计算过程。在药物命名实体识别应用中,在保证结果正确性的基础上,加速比达到44.82倍,随着语料和聚类数目的增加加速比成比例的增加。在查询意图检测应用中,该方法解决了C实现的算法无法在有限的时间内在大规模语料上构建布朗特征的瓶颈,优化后的算法可以在几分钟内处理GB级别的语料。实验表明,在其他特征的基础上结合布朗特征,交叉验证的准确率可以提高2个百分点,同时分析了在不同语料规模上、在不同聚类簇数目上构建的布朗特征对系统性能的影响。
其他文献
增强现实是把计算机生成的虚拟物体信息合成到用户感知的真实世界中的一种技术。基于视觉标识跟踪技术的增强现实系统是通过跟踪视觉标识综合使用显示技术、交互技术、多种传
并行处理技术已经引起了石油地球物理界的广泛关注,如何将现有地震数据处理模块快速,高效地移植到集群上已成为地震数据处理需要解决的重大课题。面向大规模、高精度并行地震
多序列比对和系统发育分析是生物信息学的重要研究领域。通过多序列比对和系统发育可以预测新序列的结构和功能,分析序列之间的同源关系。提高序列的多序列比对准确率和重构
随着全球互联网(Internet)的迅猛发展,网络软硬件技术的快速提升,宽带网络迅速普及。以视频会议、视频点播、远程教育为代表的新型多媒体组播应用成了宽带网络的宠儿,日益受到人
近年来离散制造企业高度重视信息化的建设,经过几年的发展,已初具成效。在几年的业务发展中,企业内产生了大量的信息化数据,包括办公文档、业务订单、数据报表、图片、音频、
近年来随着多媒体应用的领域逐渐扩展,人们在对新的先进编码技术进行理论研究的同时,也加大了实用化的力度。目前MPEG-4视频的简单框架(SimpleProfile)方案以其在低码率、高
随着Internet高速网络中实时和多媒体应用业务的迅速发展,要求通信网络能提供高效的服务质量(QoS)支持,但是传统的“尽力而为”网络机制并不能满足QoS通信的要求,近几年的研
Web是为了实现程序到用户的交互,而Web Services则是为程序到程序的交互做准备。Web Services使公司可以降低进行电子商务的成本、更快的部署解决方案以及开拓新机遇。其关键
目前,我们已经进入了以网络计算为中心的时代,人们迫切需要在任何时候、任何地点访问所需数据,移动计算为之提供了手段。它是无线通信、网络技术与移动计算设备相结合的产物,是一
随着网络技术和通信技术的不断发展,电子商务已经不再局限于以往的交易模式和技术模式,因为计算机已经不是唯一的一种能够进行互联网通信的终端设备。并且随着经济的发展,电子商