结合SSD的向量检索优化研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:luke521314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字经济时代,大数据、云计算、移动互联网等新一代的技术催生出了海量的图像、视频、文本等非结构化数据。为了检索这些非结构化数据,通常使用深度学习技术将其转换为结构化向量,再进行向量检索。现在,基于近邻图的方法因其优秀的检索能力,成为了向量检索的主流算法。然而,目前传统的基于近邻图的方法过于依赖内存,在大规模数据下存在着高昂的内存成本。为了解决这一问题,当前的主流方法,如Disk ANN,将高内存占用的近邻图索引存储在固态硬盘(SSD)上,这显著降低了检索时的内存消耗。然而,Disk ANN算法未考虑实际应用中常见的高并发批查询检索场景,导致存在大量冗余的SSD访问请求,这增加了检索时延。本文旨在优化Disk ANN的检索算法,以减少批查询场景下与SSD交互的IO时间。具体研究内容如下:(1)基于路由阶段性特点的批查询重排算法。近邻图路由过程可以划分为两阶段,第一阶段远端路由逼近以及第二阶段近似暴力搜索,且在搜索的第二阶段,查询范围基本位于图中的强连通分量(SCC)中。针对这一特性,本文采用了两个策略减少IO次数:1.提出了基于SCC相似性的批查询聚类算法,从而提高了第二阶段访问SSD数据的复用性,减少了IO次数;2.本文通过缓存策略,优化查询的入口点,进一步减少第一阶段路由过程中不确定随机IO读取的次数。(2)针对“长尾效应”的多队列动态调度策略。在批查询场景下,现有算法存在由“长尾效应”导致的平均IO时间增加的问题。具体地,为了实现足够高的搜索精度,近邻图批查询中少数查询需要占用很长的IO处理时间。在目前单队列的读取策略下,此类查询会增加后续查询的等待时间,从而影响了平均IO时间。针对以上问题,本文提出了多队列动态调度策略,其依赖于两个关键修改:1.通过使用多队列而非单队列,降低了长尾IO对整体IO时间的影响;2.本文根据队列长度最短原则对查询进行调度分配,降低了平均IO时间。(3)基于区域特征的搜索提前终止机制。现有方法中查询终止策略固定,不能根据查询分布自适应终止,易受“长尾效应”影响而导致冗余计算。针对这个问题,本文提出了基于区域特征的搜索提前终止策略,通过查询过程中的区域特征以预测剩余搜索步骤数量,从而实现动态搜索终止并减少冗余开销。基于上述成果,本文设计实现了一个图片向量检索系统,并完成了亿级规模图片的检索应用,验证了本文算法在大规模数据场景下的检索效率和有效性。
其他文献
高等职业教育是中国首创的教育类型,是培养高技能应用型人才,推动基础建设全面发展的关键力量。高职生是高等教育中的特殊群体,相较于本科学生,高职生的学历在社会上处于弱势地位,让学生感到被看不起,而且其特殊的生源背景也让他们更容易出现自卑、抑郁、自我价值感与生命意义感缺失等心理问题。生命意义感是个体对自身存在意义和价值体现的感知和觉察,是影响个人身心健康的关键因素,如果人们缺失生命的意义,就会出现自我存
学位
随着科技和经济的发展,电子游戏逐渐成为人们最常见的娱乐方式之一,但过度的游戏也会对人们的身心造成伤害,进而出现“游戏障碍”问题。游戏障碍是一种不可控制的或持续的游戏行为,表现为对游戏行为的控制受损、对游戏的重视程度增加、以及尽管在有负面结果下的游戏行为持续或升级,其他相关概念也用于对这种问题行为的描述,例如“游戏成瘾”、“病理性游戏”、“问题性游戏”等。游戏障碍个体在现实中往往存在各种问题,由此而
学位
学位
研究生教育是通过促进职业道路的进步、个人成长和加强国家经济来改善职业的必要条件。硕士研究生往往感知到研究生期间的学业压力非常大,这可能会对他们的日常生活产生不少的负面影响。压力会导致应对能力受损、学习成绩不佳、认知功能下降和生活满意度低,从而导致学业生涯失败。许多高校要求硕士研究生在读研期间必须发表一定数量和质量的文章、参与导师的研究课题,这使得硕士研究生在读研过程中担负着很大的学业和科研压力。如
学位
学位
学位
人们常常需要在一段时间内完成一项项任务或一个个目标,无论是撰写论文还是准备考试。任务能否成功完成不仅取决于所花费的努力,还取决于任务完成的节奏。以往关于任务完成的动态研究多集中在拖延上,实际上人们完成任务的节奏是多元动态的。个体在最后期限前如何分配时间和努力以完成任务,也就是节奏风格,对任务完成的质量、创造性的发挥及团队合作的效率有着密切的关系。目前对节奏风格的研究,存在着概念界定不清,结构模型较
学位
公安队伍承担的一项重大责任和使命就是保卫国家政治安全稳定和维护社会治安秩序稳定,同时公安队伍也开始从治乱走向治理的改革,这也就让警察这个职业的群体在和社会其他职业的群体相对比时往往承担着更大的工作压力。同时由于基层警察自身角色的特殊性,以及身处处置警情和案件侦办的第一线,响应人民群众急难愁盼的最前沿,职业倦怠的现象更是比比皆是。表现出的职业倦怠水平也更加的高,对基层民警的日常工作和个人生活产生了不
学位
弹性伸缩是容器云平台的重要特性,旨在提高应用程序应对负载动态变化的能力。由于传统的响应式伸缩策略存在着弹性滞后以及配置复杂问题,更智能的主动式弹性伸缩吸引了众多学者的关注。主动式弹性伸缩策略通过主动预测未来的资源需求,对可能出现的情况做出预先布置,能够有效避免违反服务水平协议(Service Level Agreement,SLA),提高资源利用率。然而,精确预测未来负载并做出合理的弹性伸缩动作,
学位
随着智能网络的发展,接入网络的移动设备数量已经非常庞大,移动设备端收集到了大量的数据,导致数据传输到云计算中心时存在高延迟的问题。由于移动边缘计算的兴起,使得在智能网络中的移动设备能够获得更高的运行效率,并显著减少了传输时延。然而,传统的移动边缘计算框架存在管理和安全方面的挑战,这是由于其中心化的特性所导致的。区块链技术通过去中心化的架构,将数据和计算能力分散到网络中的多个节点,减少了单点故障的风
学位