基于近邻图的结构化和非结构化数据混合查询研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:slchen168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自互联网时代起,数字、符号、标签等结构化数据和图像、视频、文本等非结构化数据爆发性增长。这两类数据的高效精准混合查询是实现高质量信息检索的一项关键技术,也是目前工业界亟需突破的瓶颈。当前混合查询方法主要是分别查询结构化和非结构化数据再进行结果合并重排,即前者主要通过传统数据库查询实现,后者主要将非结构化数据向量化并通过近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)实现。然而,这种分离式的混合查询限制了大规模数据场景下查询效率和精度。针对上述问题,本文主要开展了如下研究工作:(1)研究提出一种基于近邻图ANNS的原生混合查询(Native Hybrid Query,NHQ)方案,通过结构化和非结构化数据各自相似度计算及融合,设计了包括复合索引和联合剪枝两个模块的混合查询框架。该框架可应用当前各种近邻图ANNS算法将异构数据嵌入到一个复合索引中,查询时在复合索引上联合剪枝结构化信息不匹配和非结构化信息不相似的对象以高效获取查询结果。(2)针对当前近邻图ANNS算法的性能问题,通过改进选边和路由策略提出一种可导航近邻图算法(Navigable Proximity Graph,NPG)。NPG的选边策略同时考虑近邻图邻居之间距离和分布并确保邻居分布多样性以避免冗余计算,路由策略根据不同路由阶段的特点设计搜索算法。实验表明,与当前最优近邻图ANNS算法相比,NPG实现了更好的索引构建和搜索性能。(3)基于NPG的混合查询方法优化及实现。对于NHQ复合索引模块,采用一种集成异构数据的选边策略在确保顶点与其邻居融合距离相近的同时又均匀化邻居的分布;对于联合剪枝模块,采用一种集成异构数据的两阶段路由策略用于适配不同阶段的路由特征。实验表明,在相同精度的情况下,基于NPG的混合查询方法的查询效率高于现存主流方法一个数量级以上。最终,本文将实现的混合查询方法应用到图像检索和专家检索系统中。与现存图像检索相比,本文通过附加标签约束在保持检索效率不变的情况下提升了图像检索结果的精度。与现有专家检索方法相比,本文的方法不仅有效实现了根据技术方法描述文本+结构化标签约束的专家精准检索,而且具有更快的索引构建速度以及更优的检索效率和精度。
其他文献
随着科技的发展,机器人在各个领域得到了广泛的应用。作为机器人的一个重要分支,轮式移动机器人近年来受到了广泛的关注。然而,由于轮式移动机器人的非完整约束、欠驱动、非线性等特点,轮式移动机器人的运动控制具有极大的挑战性。当前大部分的研究都是在理想条件下进行的,即车轮与地面之间满足“纯滚动且不打滑”条件,这在实际的工作环境中很难满足,例如,当机器人在松软光滑的地面上移动或高速急转弯时,车轮与地面之间会发
人工智能技术随着计算机算力的提升,取得了巨大进步,其应用也逐渐进入人们的日常生活。饮食作为人们生活中密不可分的部分,使得关于菜品识别技术的研究也逐渐变得火热。以菜品识别技术为基础,进行二次开发应用于自动化餐饮服务、健康饮食管理等领域,给人们的生活提供了极大的便利。目前,许多快餐店、学校餐厅、工厂食堂的打餐工作枯燥乏味,劳动力需求和成本颇高,使用服务机器人代替人工来完成打菜已经成为一种解决方案。服务
基于证据推理(Evidence Reasoning,ER)规则的分类器能够很好的处理输入特征与输出值(类标签)之间的映射关系。针对ER分类模型中结构与参数的优化问题,现有大部分研究都是将ER模型结构与参数的优化分开考虑的,并不能实现两者的协同优化,而模型参数与结构分别决定了ER建模的模型的复杂度和准确度,在实际中更需要兼而治之,以便找到模型复杂度和精度之间的平衡解;基于此,本文提出结构与参数联合优
学位
目的:调查国内医疗机构使用最多的几款合理用药辅助信息系统的应用情况,为建立儿童群体适用的合理用药辅助信息系统提供参考。方法:通过文献检索和主要用户使用情况调查,从系统设计、运行特点、客户使用等多个维度进行综合评价。结果:七款主流合理用药辅助信息系统均具有各自的特色和优势,也存在明显缺陷和不足,尤其对儿童患者的适用性和针对性需进一步加强。结论:建立儿童患者适用的知识库和规则库,因地制宜完善儿童合理用
学位
学位
学位
在5G通信和国家工业物联网快速发展的时代,人们在军用和民用通讯上的数据需求量与日俱增。根据香农采样定理,带宽越宽可携带的信息量也就越大,天线作为通信系统的最前端其重要性不言而喻,超宽带阵列天线也凭借其在通信和探测领域的高带宽、高速率、高分辨率等特点而得到广泛的应用。但传统的超宽带阵列天线往往其体积庞大,造价较高限制了其进一步的发展。本文采用国际上一种全新的超宽带阵列天线设计方法,紧耦合超宽带阵列设
采用调制掺杂氮化镓(GaN)异质结结构的高电子迁移率晶体管(HEMT)在过去的十年中得到了迅速的发展,GaN被认为是高频和大功率相结合的最有前途的半导体技术之一,准确的GaN器件的模型是计算机辅助电路设计,特别是高效率功率放大器(PAs)和单片微波集成电路(MMIC)设计的关键组件,在众多建模方法中,行为模型因其高精度和低复杂度的特点脱颖而出成为了研究热点。近些年来,以机器学习为代表的人工智能技术