基于GPU的文本处理相关算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：huangom444

【摘要】

：

基于GPU的并行计算是近年来非常热门的技术，在几大显卡制造厂商的不断推动下，GPU并行计算已经在非常多的领域占据一席之地，比如英伟达公司就推出了为自家显卡编程的语言:CUDA。C

【作者】

：

王俊俏

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2015年期

【关键词】

：

文本处理单词关联度计算近似重复文档检测图形处理器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于GPU的并行计算是近年来非常热门的技术，在几大显卡制造厂商的不断推动下，GPU并行计算已经在非常多的领域占据一席之地，比如英伟达公司就推出了为自家显卡编程的语言:CUDA。CUDA是一种从C/C++延伸出来的英伟达GPU编程语言，完美支持C/C++的现有语法。　　本文根据GPU并行加速系统的特点，尝试将两个本文处理相关的算法:单词关联度计算和近似重复文档检测算法应用进去。在单词关联度计算方面，目前较为权威并且适合大规模挖掘计算的方法就是基于单词共生关系的DISCO算法，经过详细的分析，本文对DISCO算法中从互信息矩阵计算得到关联度矩阵的过程设计了CUDA并行加速程序。在近似重复文档检测方面，综合考虑各种重复检测算法之后，本文对基于模糊哈希的近似重复检测进行了深入的研究，并且根据字符串编辑距离的计算方法设计了两种不同的CUDA加速策略。　　实验方面，本文收集了维基百科英文全文作为单词关联度计算的语料库，抓取了国外的一个在线评测网站的用户提交的代码文件作为近似重复文档检测的数据源，经过大量的参数调整和对比实验，充分验证了本文提出的方法的有效性和高效性。

其他文献

基于互联网的模糊数据挖掘技术的研究与应用

互联网上丰富、广泛的信息已成为人们最重要的信息来源之一。如何帮助用户快速、准确地查找网上有用信息,是一个非常有意义的问题,具有很高的实用价值,己经成为近年来的研究

学位

数据挖掘文本分类模糊算法分类搜索

基于身份的PKI系统研究

基于身份的公钥密码体制(ID-PKC)是公钥密码体制的一个重要分支，其突出的特点在于公钥可以是事先选定的任意字符串，比如身份信息。这个特点使得在此基础上构建的基于身份的PKI(

学位

公钥密码体制PKI系统密钥隔离密码方案密钥管理身份认证网格安全

复杂条件下PDF417条码识别研究

条码技术自问世30多年来发展迅速，在各个行业得到广泛的应用，是目前最经济、实用的一种自动识别技术。随着信息化和全球化的进程，人们对条形码的需要层次不断提高，尤其是对单个条

学位

二维条码二维条码PDF417PDF417识别算法识别算法码字译码码字译码

面向手机的中文文本信息分类技术的研究

近年来，随着通信设备和技术的发展，手机短信服务为人们提供了更多的信息，同时也为形形色色的不良信息提供了藏污纳垢的便捷场所。因此，实现对手机短信进行自动分类，可以帮助人们识

学位

中文文本分类中文文本分类手机短信分类手机短信分类N-GramN-Gram最小类过滤最小类过滤贝叶斯分类器贝叶斯分类器

基于产生式的工作流模型分析技术研究

工作流技术是当前非常活跃的研究领域之一，随着工作流系统在企业中应用的深入，业务流程日趋复杂和庞大，造成基于工作流的应用系统的设计成本加大、风险性提高。因此，如何在流程模

学位

工作流模型结构形式化方法产生式属性验证框架可扩展性

大数据环境下的服务发现技术研究及应用

随着云计算技术和移动互联网的迅猛发展及智能终端的普及，服务的开发、部署、访问及维护成本大幅度降低，海量服务应运而生。同时，用户与服务之间，服务与服务之间，用户与用户之间的

学位

计算机网络服务发现技术数据质量

基于容器虚拟化技术的遥感大数据处理与服务

随着遥感产业的快速发展，遥感数据带来了人类对空间系统认知方式的改变。越来越多的遥感数据被广泛应用到气象、海洋、陆地和环境等系列的、行业性的科学研究领域，对科学创新性

学位

遥感大数据服务平台软件设计并行处理法性能稳定性容器虚拟化技术

层次网络节点域网络管理通信协议的设计与实现

随着Internet的规模、用户和流量迅速增长，层次交换网络因其数据包转发简单，管理方便，成为网络发展的一个重要趋势。　　层次网络采角特殊的网络体系结构，层次网络节点域交换机

学位

层次交换网络节点域网络管理Http协议web服务

基于Cloud Foundry的多租户网络隔离设计与实现

近年来，随着分布式技术、网络技术和其他相关技术的发展，云计算自诞生以来即受到广泛关注。云计算技术将计算资源聚合在云端，为云平台的用户提供弹性、可靠、安全的服务。　　Cl

学位

多租户模式网络隔离安全管理云应用平台

概率进程代数的度量指称语义

在过去的十几年里,大多数研究主要集中在用进程代数对系统进行功能分析,很少涉及性能评价。一般的进程代数没有考虑概率,只能描述系统的功能特性,不能对系统进行性能评价,因

学位

(概率)进程代数(概率)事件结构度量指称语义

基于GPU的文本处理相关算法研究

与本文相关的学术论文