基于GPU的索引构建方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mj73182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网飞速的发展,网络信息量不断增加,为提高实时检索的效率,需要一种快速的索引方法。就搜索引擎而言,对大规模文本构建索引涉及较大的数据量和计算量,会消耗大量计算资源,如何实现海量文本数据高性能索引,是搜索应用中不可或缺的议题。为提高索引构建的性能,采用了GPU协作计算的模式,利用GPU高效并行计算能力来解决密集计算的问题。为充分利用CPU和GPU的计算优势,分析了索引构建的机制,提出了一种加速索引构建的CPU、GPU的任务协作模型,分解文本索引各个过程,将文本解析、词条索引等可并行化任务交给GPU完成,而读写文件、索引合并等任务则由CPU串行完成。为提高多线程并行计算的效率,根据GPU内存结构特点,设计了基于哈希表的并行索引结构,对每个词条增加了线程独立的频率统计区,在构建索引时,索引词条按不同的索引结构进行分类管理,以减少内存开销。根据词条类型的不同,设计了基于哈希表的立即索引的并行算法,和基于合并的并行索引算法,包括并行词频统计和索引转换的方案。最后,针对GPU并行计算的特点,在并行粒度和指令级进行了优化,进一步提高了索引构建的效率。实验表明,设计的并行索引构建方案适合GPU计算,相应的优化策略也取得了较好的效果,综合比较,GPU并行索引的效率是CPU的五倍。因此,GPU能够提高文本索引构建的效率。
其他文献
3D电影《阿凡达》的热播在全球范围内掀起了一股3D热潮,一时间立体电视、立体显示器、立体摄像机等产品相继迈入市场,为大众的生活增添了更多色彩。虽然目前3D内容的不足正极大
情境感知计算是普适计算的重要组成部分,通过时变的上下文信息自适应的为用户提供当前最合适的服务。在信息化社会,用户整个生活的大部分行为和活动状态都将可以通过传感器等方
随着信息技术的发展,存储在计算机系统结构中变得越来越重要。目前,在存储领域中,出现了一种新的存储介质:闪存。因其容量日益增大、读写速度快、抗干扰性强、功耗低等特点,基于闪
随着语义Web的发展,RDF数据量不断增长,浏览语义Web数据的需求变得越来越迫切。许多国外的研究机构开展了面向语义Web浏览的研究,并推出了一些有影响力的系统和工具。   然而
为了满足呈爆炸式增长的信息存储、处理、传输的需求,大规模数据中心应运而生。在大规模数据中心里,根据经典的80/20原理,将数据都存储在高性能设备上是不经济的,为了实现资源的
语义搜索(SemanticSearch)是一种将语义Web技术与搜索系统相结合以提高搜索效果的技术。学术语义搜索系统是以特定领域的实体作为搜索对象的语义搜索系统,使用具有明确含义的
LZ77算法,又被称为“滑动窗口压缩”,它依赖两个滑动窗口来进行压缩,一个窗口包含已输入数据流,称为字典窗口DW(dictionary window);另一个窗口包含待压缩编码的字符串,即待编码窗
仿射算术作为一种可靠的数值计算模型,已经广泛应用于计算机图形学和计算机辅助几何设计中。例如,隐式曲面的绘制和参数曲面求交问题,都可以利用仿射算术予以解决。然而,串行
随着伺服控制技术的发展,伺服双轴同步运动在多个领域有越来越广泛的应用。同时伴随着数字信号处理器的性能发展,推动伺服控制往高精度、高智能化和全数字化方向发展,对伺服双轴
随着在线视频行业的发展,视频行业的广告收入也一直保持着良好的增长势头。目前在线视频广告系统由于广告投放内容随机导致广告与视频内容的相关性较差、广告投放时机固定导致