近似邻近图在高维向量空间内数据检索和分析中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lonlinyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维空间中的数据检索和分析是信息检索领域里一个历史悠久且重要的部分。尤其是在当下的人工智能和大数据时代,机器学习领域内的表征学习技术得到长足发展。人们可以将自然世界中目标所蕴含的丰富语义信息嵌入到高维空间当中,进而得到该目标的以高维稠密向量表示的精确表达。在高维空间中进行数据分析和检索最大的挑战有两个:第一,大量高维向量之间进行距离计算所带来的计算量代价使得现有算法往往难以实用;第二,以往算法对高维空间中数据结构进行建模的方式不能高效表达数据点之间的相互关系。为了解决以上两个挑战带来的问题,为了使高维空间中的数据检索和分析算法可以真正达到实用的程度,本文开展了以下研究工作:
  1.基于辐射伸展图的近似最近邻检索算法。基于近似近邻图(Approximate ProximityGraph,APG)的高维空间检索算法是近年来信息检索领域一个新兴的热点。尽管一些图算法在公开的测试基准上取得了良好的表现。但这些近似近邻图算法都存在以下问题:1)缺少时间复杂度理论保证,检索行为无法预测;2)索引结构庞大,内存消耗大;3)图结构的联通性没有保障,最差情况无法预测。为了解决以上问题,从理论层面出发,找到了一种检索行为可预测,计算复杂度有理论保证的新型近邻图结构,命名为单调相对近邻图(Monotonic Relative Neighborhood Graph,MRNG)。更进一步,这种理论图结构的索引构建复杂度过高,为了解决超大规模检索问题,提出了MRNG的近似结构——辐射伸展图(Navigating Spreading-out Graph,NSG),并成功在多个公开数据集和上亿级别的数据集上实现了高效检索,超越了当时最高效的方法i并成功部署在淘宝网搜索引擎中。
  2.基于卫星系图的近似最检索近邻算法。尽管NSG算法效果拔群,但在“基于辐射伸展图的近似最近邻算法”的研究过程中,仍然发现有以下几个问题可以进一步思考:1)对于NSG算法的理论模型MRNG,在证明其理论检索复杂度的时候,做了一个较强的假设,即待检索点(query)本身存在于数据库之中。而在实际应用场景中,query大多数时候无法在数据库内直接找到。比如,在图片搜索引擎中(以图搜图),用户上传的图片很可能是刚刚拍下的照片,在数据库内很可能不存在完全一样的图片,其高维向量表示也很可能不存在于数据库内。在检索时,往往只能返回与其最近接的向量(即近邻)。发现,待检索点是否存在于数据库对基于近邻图的检索算法的表现有显著影响。2)NSG构建索引的复杂度高于O(NlogN),其中N为数据集点总数。在超大规模数据集上,这样的索引构建和更新效率较为低下。从这两个问题出发,找到了一种新的图结构,命名为卫星系图(Satellite System Graph,SSG)。SSG不仅对存在于数据库的query的检索有理论保证,也对不存在于数据库内的query有理论保证,同时设计了SSG的近似结构Navigating SSG(NSSG),极大地降低了索引构建过程的时间复杂度,同时也提升了检索效率。公开数据集的实验表明,NSSG性能显著优于现存所有算法。
  3.基于分层锚点图的大规模数据可视化算法。高维空间中的向量可视化是数据分析的重要手段,其主要目的是将人无法直接观察和理解的高维空间数据投影到二到三维空间中,保持原始空间中的数据结构信息,方便人进行分析和理解。特别地,用可视化方法了解数据分布对于设计搜索引擎的索引结构有重要意义。当下的常用高维数据可视化方法有两个问题:1)算法鲁棒性差。不同的初始化对算法呈现的结果有明显影响;2)算法准确性差。算法所呈现的结果中常常出现同类别数据分裂为不同团块的情况。这些问题的出现与之前的算法丢失较远距离的信息有关。为了解决这些问题,提出了一种分层锚点图的近似近邻图结构,把通过聚类得到的中心点作为承载全局结构信息的“锚点”。通过维护锚点与锚点,锚点与普通点,以及普通点与普通点之间的关系来得到正确的低维空间结构布局。在大量公开数据集上的实验证明,我们的方法所呈现的可视化效果解决了上述问题并显著优于其他方法。
其他文献
近年来,随着三维模型建模技术的发展以及低成本采集设备的出现,三维模型数据规模日益庞大,已经成为文本、图像、视频、音频以外的一种新模态大数据。由于三维模型能够更加真实的表征自然界中物体的空间结构特性和外观特性,三维模型已被广泛的应用于智能制造、数字娱乐和虚拟现实等领域。面对指数级增长的三维模型大数据,如何实现便捷的三维模型获取和管理已成为亟待解决的难题。因此,基于内容的三维模型检索关键技术成为了当前
极化码(Polar Codes)是基于信道极化(Channel Polarization)现象的一种新型信道编码。信道极化是指对N=2n(n为任意正整数)个相互独立的二进制输入离散无记忆信道(Binary-input Discrete Memoryless Channel, B-DMC)W,通过引入一些相关性操作得到一组有相互依赖关系的极化信道的过程。当参与操作的信道数量N趋于无穷大时,对应得到的
学位
图像质量对于各种图像任务都有着至关重要的作用,在一定程度上决定着任务的困难程度以及完成的效果,利用超分辨率技术恢复图像质量成为研究的热点,但是超分辨率重建任务是一个病态问题,因为要从低分辨率图像中恢复更高分辨率的图像。为了提高图像的分辨率,可以采用升级图像图像采集硬件或延长图像采集时间的方法,但是会增加系统成本,或是增加了对病人的辐射剂量等。因此,从软件的角度来提高图像分辨率是更好的选择,即通过超
学位
随着多媒体和互联网技术的发展,视频数量飞速增加,使得视频智能化应用的发展受到了广泛关注。视频行为识别旨在对视频内容进行理解,以准确识别视频中目标的运动类别,其在视频检索、智能监控、人机交互领域具有广泛的应用前景,目前已成为计算机视觉领域的热点研究课题。视频行为识别的关键在于获取能够准确描述视频内容的特征表达。近年来,深度学习在特征学习方面表现出了优异的性能,被广泛应用于各类计算机视觉任务中。本文以
学位
频谱资源是无线网络中的一个主要组成部分,对这种有限的资源持续且固定的分配会导致频带的耗尽。因此,这种资源的共享能力将持续作为一个主要的研究方向,对研究人员有莫大的吸引力。近来,新兴的对现有资源的扩展、应用和服务例如运载性自组织网络,在大多数情况下对可利用频带的需求越来越大。  因此,对频谱资源低效的利用以及其匮乏的现状促生了一个新的无线通信范例,在这个范例中可用的频谱资源能被机会性地调用。且在该范
随着社会经济的发展以及人民生活水平的提高,中国拥有车辆家庭的比重越来越高。调查显示随着车辆的逐年增多,交通事故也逐年增多。因此高级驾驶辅助系统(Advanced Driver Assistant Systems,ASAS)成为一个研究热点,其中车道线检测技术是最为关键的一步。但恶略的天气情况以及树荫的遮挡等,都会严重影响车道线检测的准确率。当算法过于复杂时,又很难满足车辆在高速行驶时的检测速度要求
论文以河南某工厂加热炉实际控制系统的总体设计和分析为背景,详细调研了加热炉控制系统及控制策略的国内外研究现状。通过分析加热炉的结构和工作方式,以及工业现场存在的问题,明确了加热炉被控对象,设计了基于PLC的加热炉控制系统,并完成系统软硬件选型、控制程序编写、WinCC监控界面组态,以及系统通信网络构架。通过配置OPC通信协议,实现WinCC与MATLAB之间的数据交互。  在加热炉系统中,决定其热
学位
双级矩阵变换器—永磁同步电机系统具有能量可双向流动,功率因数可调节和无需大体积的直流储能环节等优点,在驱动电机方面具有重要的意义。传统的双级矩阵变换器直接转矩控制具有结构简单,控制性能好的优点,但由于输入电流正弦度较低,转矩磁链波动大等缺陷限制了其广泛应用,本文针对该问题进行了研究并提出了占空比优化控制策略,通过新建立的影响因子表来改善系统的动静态性能。论文的主要安排如下所示:  首先介绍了传统的
实际生活中存在大量系统可以用切换正系统描述,如:经济、生物、交通等领域。切换正系统足一类特殊的切换系统,其子系统间的切换特性和系统状态的非负特性使得对此系统的研究充满了复杂性和挑战性。尽管切换正系统的研究已经取得一些进展,但还处于初步研究阶段,大量的分析和综合问题亟待解决。因此,研究切换正系统的相关问题具有重要的应用价值及理论意义。本文主要研究切换正系统的稳定性、观测器设计及控制器设计等问题,主要
人机对话与问答,是指让机器能够理解并运用人类语言进行人机互动交互。通过对话与问答交互方式,人类可以从计算机获得实时信息查询、问题解答、任务办理以及闲聊对话等服务。近年来,随着移动互联网和高速网络通信的发展,人机交互日益渗透到人类生活的方方面面,因此也受到了学术界和工业界的广泛关注。  已有的人机对话问答研究,主流算法是从自然语言处理语义分析角度出发,利用所查询问题与备选答案之间,或者是对话上文与下