基于GPU计算连续分布式词向量的方法

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:theone2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在用机器学习方法解决自然语言处理领域的问题,将词或符号表示成向量是一项基本工作.Google的开源工具word2vec利用深度学习模型得到的分布式词向量,能粗略表示词与词之间的距离,甚至词与词之间的向量运算能与语义对应,是近年来获得词向量的主流方法.在GPU上训练得到词向量,实现了CBOW和Skip_gram两种模型,每种模型又包含了层次Softmax和负取样两种算法.其中在层次Softmax算法中使用了满二叉树代替哈夫曼树,在GPU上更容易实现;对线程的配置和学习速率等一些参数巧妙地设置能提高效率和词向量的质量.在NVIDIA TeslaC2050的GPU上,相对于CPU单线程获得了14-28倍的加速比,相对于CPU多线程获得了2-7倍的加速比,而且词向量的精度要略高于CPU得到的词向量精度.
其他文献
2014年被很多人称为全面深化改革的元年。李克强总理在今年APEC财长会上指出,中国经济经过三十多年的快速发展,已经不再单纯追求速度,而是更加注重结构优化和转型升级,要的是更有质量、有效益、合规律、可持续的增长。面对当前低迷的宏观经济形势,飞快变化的市场和渠道以及移动互联网和大数据等新思维的冲击,每一个企业领导者都在探索如何转型升级以适应新的市场形势。有人问:我们行业、企业要做到可持续发展,关键是
会议
洗涤并不是简单地去除衣物污渍,而是从消费者洗涤计划开始的一瞬间,直到衣物洗净晾干后穿在身上——整个过程的整体体验。本报告将着眼于探讨如何衡量技术创新对消费者视觉、触觉和嗅觉体验的提升。同时,报告将以酶制剂、聚合物和胶囊技术创新为例,分享技术创新带给消费者体验的提升。
会议
会议
会议
会议
会议
宏基因组主要研究特定环境中微生物的组成及与环境因素的交互关系,其任务之一是将不同基因按照样本特征进行聚类,进而研究各类之间的相互关系.由于样本量m-般在上千左右,每个样本中包含的基因数量n也在百万左右,且符合数据特性的聚类算法复杂度为O(m2n2),常规实现方式需要耗费大量计算时间.为此,本文选取适用于宏基因组数据的聚类算法,使用一千个样本和五千个基因进行测试,原串行程序需要运行十几个小时,而基于
生物信息学的快速发展使得其所研究的生物体基因组规模越来越大,结构越来越复杂,这对如何快速进行基因组组装,获得准确完整的基因组序列提出了巨大的挑战.基因组组装中的线性化步骤耗时巨大,是计算密集型和内存访存密集型兼具的过程,本文研究了将随机List ranking算法应用于该线性化步骤的新型并行方法,对其基本原理进行了解释,并根据其具体实现方案,细致分析各个要点,设计了相当完备的通信消息量模型,非常准
本文提出一种基于云安全的便携云存储设备,具备自安全、自学习、自审计功能,能够有效规避非安全环境下对存储操作时发生的泄密等非安全事件.通过内置安全引擎能够实现基于HTML5浏览器和基于X-Client方式的硬加密访问;通过内置网络安全引擎以及高性能签名算法,能够实现高速网络安全访问以及安全云存储功能.同时应用一种适用于云存储安全的深度学习技术,可作为传统被动入侵防御技术重要补充技术手段,满足当前安全
我国国家级超级计算中心普遍面临应用不足、应用领域狭窄,投资巨大、运营开销昂贵的问题,通过对比国内外典型超算中心应用和运营机制,分析我国超算中心在应用推广和运营机制方面的问题,指出需要针对我国超算中心建设特点和应用需求,由政府主导,联合高校、科研机构和企业联合推动超级计算机应用,提高我国超级计算机应用水平,实现超算中心良性运营。