基于GPU的文本处理相关算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:huangom444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于GPU的并行计算是近年来非常热门的技术,在几大显卡制造厂商的不断推动下,GPU并行计算已经在非常多的领域占据一席之地,比如英伟达公司就推出了为自家显卡编程的语言:CUDA。CUDA是一种从C/C++延伸出来的英伟达GPU编程语言,完美支持C/C++的现有语法。  本文根据GPU并行加速系统的特点,尝试将两个本文处理相关的算法:单词关联度计算和近似重复文档检测算法应用进去。在单词关联度计算方面,目前较为权威并且适合大规模挖掘计算的方法就是基于单词共生关系的DISCO算法,经过详细的分析,本文对DISCO算法中从互信息矩阵计算得到关联度矩阵的过程设计了CUDA并行加速程序。在近似重复文档检测方面,综合考虑各种重复检测算法之后,本文对基于模糊哈希的近似重复检测进行了深入的研究,并且根据字符串编辑距离的计算方法设计了两种不同的CUDA加速策略。  实验方面,本文收集了维基百科英文全文作为单词关联度计算的语料库,抓取了国外的一个在线评测网站的用户提交的代码文件作为近似重复文档检测的数据源,经过大量的参数调整和对比实验,充分验证了本文提出的方法的有效性和高效性。
其他文献
互联网上丰富、广泛的信息已成为人们最重要的信息来源之一。如何帮助用户快速、准确地查找网上有用信息,是一个非常有意义的问题,具有很高的实用价值,己经成为近年来的研究
基于身份的公钥密码体制(ID-PKC)是公钥密码体制的一个重要分支,其突出的特点在于公钥可以是事先选定的任意字符串,比如身份信息。这个特点使得在此基础上构建的基于身份的PKI(
条码技术自问世30多年来发展迅速,在各个行业得到广泛的应用,是目前最经济、实用的一种自动识别技术。随着信息化和全球化的进程,人们对条形码的需要层次不断提高,尤其是对单个条
近年来,随着通信设备和技术的发展,手机短信服务为人们提供了更多的信息,同时也为形形色色的不良信息提供了藏污纳垢的便捷场所。因此,实现对手机短信进行自动分类,可以帮助人们识
工作流技术是当前非常活跃的研究领域之一,随着工作流系统在企业中应用的深入,业务流程日趋复杂和庞大,造成基于工作流的应用系统的设计成本加大、风险性提高。因此,如何在流程模
随着云计算技术和移动互联网的迅猛发展及智能终端的普及,服务的开发、部署、访问及维护成本大幅度降低,海量服务应运而生。同时,用户与服务之间,服务与服务之间,用户与用户之间的
随着遥感产业的快速发展,遥感数据带来了人类对空间系统认知方式的改变。越来越多的遥感数据被广泛应用到气象、海洋、陆地和环境等系列的、行业性的科学研究领域,对科学创新性
随着Internet的规模、用户和流量迅速增长,层次交换网络因其数据包转发简单,管理方便,成为网络发展的一个重要趋势。   层次网络采角特殊的网络体系结构,层次网络节点域交换机
近年来,随着分布式技术、网络技术和其他相关技术的发展,云计算自诞生以来即受到广泛关注。云计算技术将计算资源聚合在云端,为云平台的用户提供弹性、可靠、安全的服务。  Cl
在过去的十几年里,大多数研究主要集中在用进程代数对系统进行功能分析,很少涉及性能评价。一般的进程代数没有考虑概率,只能描述系统的功能特性,不能对系统进行性能评价,因