【摘 要】
:
索引作为加速数据库查询的一种成熟技术,始终受限于CPU的内存带宽与架构的发展,因此无法在性能上实现质的飞跃.所以使用GPU赋能索引技术来辅助数据库执行查询任务是势在必行的.因此,针对异构环境下索引结构的适应性以及现有GPU索引受限于显存容量导致扩展性不够等问题,提出了一种CPU与GPU协同处理的HPGB+-Tree索引算法.该算法以混合架构的方式重新构建索引结构,使其完全适应GPU的硬件特性,突破CPU内存带宽受限和GPU内存容量受限的双重难关.HPGB+-Tree索引不仅解决了索引异构问题,还充分利用两
【机 构】
:
东北大学信息化建设与网络安全办公室 沈阳 110819;东北大学计算机科学与工程学院 沈阳 110819
论文部分内容阅读
索引作为加速数据库查询的一种成熟技术,始终受限于CPU的内存带宽与架构的发展,因此无法在性能上实现质的飞跃.所以使用GPU赋能索引技术来辅助数据库执行查询任务是势在必行的.因此,针对异构环境下索引结构的适应性以及现有GPU索引受限于显存容量导致扩展性不够等问题,提出了一种CPU与GPU协同处理的HPGB+-Tree索引算法.该算法以混合架构的方式重新构建索引结构,使其完全适应GPU的硬件特性,突破CPU内存带宽受限和GPU内存容量受限的双重难关.HPGB+-Tree索引不仅解决了索引异构问题,还充分利用两大硬件平台各自的优势加速基于索引的相关操作.在不同数据量与不同任务规模下对算法的性能进行了评估,实验结果表明,该算法在内核占用率与程序执行速度两个方面都极具优势,在性能上处于领先地位.
其他文献
近年来,大规模在线开放课程(MOOCs)发展迅速,吸引了学界的广泛关注.用户退课率极高这一问题的长期存在,使得退课行为预测成为了一个重要的研究课题.目前的退课行为预测模型过于依赖传统的机器学习算法.此外,很多研究忽视了MOOCs用户灵活修课的特点,采用时序无关的方法进行预测.针对目前该领域存在的问题,论文提出了一种融合注意力机制的时序预测模型.该模型首先利用长短期记忆网络从原始的时序数据中学习新的时序隐态表示,再使用多个一维卷积神经网络提取隐态中各类特征的时序模式,最后融合注意力机制,使模型能够通过注意力
聚类是一种无监督分类,常用于机器视觉、图像处理等领域.针对密度峰值聚类算法初始聚类中心需要人工手动选择问题,提出一种自动选择聚类中心算法,通过使用最小二乘法结合决策图进行簇中心选择,并提出改进选点策略进一步减少算法所需时间开销.实验中使用Matlab实现算法,并使用6种UCI常用数据集测试,实验结果表明它的性能优于现有的方法,在无需人为干预的情况下获得较好的聚类效果,对数据集内部规律和噪声点都有较好的识别能力.
多模态是描述一个整合不同数据包括文本、图像、声音等信息的过程.在互联网领域,设备单位归属是指连接到互联网中的设备属于哪一个单位或组织.网络设备所属单位的识别对提高网络的安全性和服务性等方面起着重要的作用.域名作为计算机的定位标识,确定它所属的单位对网络的安全和管理十分必要.现有的确定域名所属单位的方法通常是通过查询设备注册商,但由于提供服务的云服务商,域名服务商的存在,大多数域名的注册单位并不是域名的使用单位.为了能快速、准确地确定域名所属的单位,这篇文章以域名对应的网站为基础,通过分析网站中的文字信息和
大数据交互式查询分析对于查询时延具有较高需求,基于采样技术的近似计算服务通过牺牲一定的准确性可以获得较少的查询时延,其在大数据近似查询分析方面具有良好的普适性和广阔的应用前景.论文所述系统Flexisample是一个基于采样技术的个性化近似聚合查询系统,实现了针对查询请求的解析重写和逻辑样本组合策略,使其可以满足个性化的多维聚合查询需求.为了在满足多样个性化聚合查询请求的同时保证一定的准确率,Flexisample维护了一组优化设计后的分层样本,并且为了扩大样本在时间维度上的覆盖范围,系统利用在线数据流对
法律文件数量的快速增长与人工智能的飞速发展,推动了法律领域中机器阅读理解的发展,如罪名预测、证据预测、法律条文推荐等.证据预测是其中一个关键应用,支持问答系统,即在预测答案的同时进行证据预测,预测出的证据用来辅助推断答案.当前法律文书通常包含20句以上的语句,其中可作为直接支撑答案的证据不多,一般不超过3句.证据预测需要从文书的大量语句中寻找和答案相关的证据,难度较大,其过多的样本数据会使不相关语句对预测结果产生干扰.为了过滤法律文书中众多和答案证据不相关的语句,提出了面向法律文书基于语句选择的证据预测方
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛
实体链接是指对于文本中提到的实体指称,在知识图谱中找到它所对应的真实实体的过程.利用实体链接技术可以把网络数据和知识库链接起来,在对数据进行处理时就能运用知识库中的结构化信息,很大地促进了自然语言处理领域的发展.论文提出一种将局部消歧和全局消歧相结合的实体消歧方法.在局部消歧方面,利用BiLSTM+Attention模型捕获文本中实体指称的上下文信息,与知识库中的实体信息进行相似性计算得到候选实体的局部消歧得分.在全局消歧方面,构造候选实体之间的关联图,将实体的局部消歧得分作为每个实体节点的初始得分,利用
现如今,神经网络在基于句序列的机器翻译模型已占据主流地位.但在中英文互译中,仅对单语句进行翻译不仅仅丢失语义信息,还破坏繁杂的逻辑构造,并不符合当代机器翻译需求.鉴于此,提出一种新型基于注意力引导图卷积网络的机器翻译优化模型,可通过多头注意力机制和图卷积神经网络结构的结合保留词元素特征及段落层次结构信息.为了验证基于注意力引导图卷积网络模型是否优于其他传统算法,在WMT21数据集上进行实验,结果表明各指标均达到理想效果.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和
在远程监督(Distant Supervision,DS)实体关系抽取任务中,采用远程监督的方式虽然可以产生大量的标注数据,但是这种方法产生的数据集充满大量的噪声数据,从而会降低关系抽取的性能.为此,我们针对现有深度学习使用浅层和单一深层神经网络模型提取特征的局限,设计了一个融合注意力机制的密集连接卷积神经网络模型——DenseCNN-ATT,该模型采用五层卷积深度的CNN,构成密集连接卷积模块作为句子编码器,通过增加特征通道数量来提高特征传递,减少了特征梯度的消失现象;此外,为进一步减少噪声影响,论文将