【摘 要】
:
k近邻查询作为信息技术领域中的基本问题,被广泛的应用于各行各业。例如在信息检索中用作近似查询、在机器学习中用作分类以及在数据库、计算机视觉等领域有着不计其数的应用。随着计算机深入到各行业、各领域,数据存储更廉价、更便捷,这些特征造成了当下数据规模大、类型丰富、产生速度快的特点。这些数据特点为数据的管理、分析和利用都带来了巨大的挑战。k近邻查询技术受数据规模和数据维度的影响大,一直是大数据领域中的热
论文部分内容阅读
k近邻查询作为信息技术领域中的基本问题,被广泛的应用于各行各业。例如在信息检索中用作近似查询、在机器学习中用作分类以及在数据库、计算机视觉等领域有着不计其数的应用。随着计算机深入到各行业、各领域,数据存储更廉价、更便捷,这些特征造成了当下数据规模大、类型丰富、产生速度快的特点。这些数据特点为数据的管理、分析和利用都带来了巨大的挑战。k近邻查询技术受数据规模和数据维度的影响大,一直是大数据领域中的热门问题。当前,对于k近邻查询技术的研究可以根据其结构特征归纳为:基于树的k近邻查询技术、基于图的k近邻查询技术以及基于哈希的k近邻查询技术。它们都因其结构不同各有优点,但不能同时满足查询时间短、索引空间小、查询结果准确的要求。究其原因是当前用于支持k近邻查询的索引结构都是静态的,不能依据历史查询经验提升索引结构性能,同时忽视了查询工作负载变化对k近邻查询结果性能的影响。综上,本文根据历史查询经验,结合查询工作负载变化提出了一种查询时间短、索引空间小、查询结果准确的k近邻查询技术。本文主要贡献如下:1)针对k近邻查询技术不能依据历史查询经验提升索引结构性能的问题,本文设计了一个查询速度快、索引结构体积小的索引结构称之为HCTree以及一种基于历史查询的索引优化算法。经过基于历史查询优化的HCTree在精度上有明显提升,经过优化的索引结构被称为d-HCTree。2)针对索引结构不能适应查询工作负载变化的问题,本文提出了两种数据分布优化算法,分别是基于历史查询的数据分布优化算法和增量式的数据分布优化算法。基于历史查询的数据分布优化算法可以有效降低d-HCTree的查询时间,并可以使d-HCTree适应查询工作负载的变化。增量式的数据分布优化算法直接应用于HCTree,在保持HCTree查询效率的同时有效提高了查询精度,并赋予了HCTree适应查询工作负载变化的能力。3)针对索引结构适应查询工作负载变化慢的问题,本文提出了一种基于强化学习的数据分布优化算法。通过强化学习模型,不仅有效的提高了HCTree的准确率,还可以有效的缩短数据分布优化所花费的时间,灵活的选择数据分布优化问题的规模,实时的调整数据分布。
其他文献
利用植物自身的生物学特性,发掘其潜在能力,并同时筛选、鉴定和推广磷利用效率高的品种,以提高磷资源利用效率,缓解磷矿资源短缺以及过度施用磷肥给生态环境带来的不可逆的损失。同时,利用植物自身特性提高其对磷营养的吸收利用效率,这也是改善土壤养分状况的代替性手段。针对上述情况,本试验设置两个施磷水平(90kg/hm~2和270 kg/hm~2)和25个紫花苜蓿品种(巨能401、3010、4030等),通过
新媒体技术应用给高校共青团政治认同的培育工作带来了巨大的变革。本文围绕“高校共青团运用新媒体培育大学生政治认同”这一核心问题搭建基本框架,进行深入研究。运用社会学基本理论分析大学生政治认同与预期社会化的重要性,确立高校共青团通过新媒体培育大学生政治认同的前提条件。通过对相关案例的具体考证,说明培育大学生政治认同的三大传播特征,即党团声音的传导力、意识形态话语的阐释力、理性与感性的兼容力。而承认大学
本文将受婚恋压力困扰的女性白领作为研究对象,遵循“服务对象即有需要的人”的观念,从优势视角出发,并结合社会支持理论、社会学习理论、理性情绪疗法等,通过问卷分析、访谈、观察等方法收集资料,对女性白领婚恋压力的现状及其产生的原因进行一系列探索,可以发现,当前女性白领婚恋压力产生原因涉及范围较为广泛,女性白领有缓解婚恋压力和负面情绪、改变错误认知,认清自身优势、完善社交能力和树立正确婚恋观的需求。小组工
本文研究了利用多频数据对粗糙表面重构的反散射问题,包括具有相位信息的反散射问题以及利用无相位数据的反散射问题.为了克服多尺度无界曲面给形状反演带来的非线性和不适定性的困难,我们分别采用了基于同伦迭代方法和无导数Landweber迭代方法的多频逐次线性化方法.当多频数据可用时,利用多频同伦迭代算法或者多频无导数Landweber迭代算法,用低频的迭代结果来估计粗糙表面的大尺度结构,所获得的估计作为下
基因位点连锁研究是近代群体遗传学中的一个重点研究内容。经典的Haseman-Elston回归分析方法在对定量性状进行连锁分析时具有良好的表现,使得其在具有复杂性状疾病的家庭谱系基因连锁分析研究中被频繁运用。目前大部分有关Haseman-Elston方法的研究都是基于同胞对设计,很少有推广到远亲亲属对。但连锁研究通常不应局限于同胞对设计,就我国而言,九零后一代基本是独生子女家庭,因此用基于兄弟对的H
本文研究了限制Heisenberg李超代数的系数取自1维平凡模的低维限制上同调以及系数取自伴随模的1维限制上同调.首先,本文给出了 Heisenberg李超代数的限制结构,使其成为一个限制李超代数.其次,本文计算出限制Heisenberg李超代数的系数取自1维平凡模的1,2维限制上同调.最后,本文通过计算限制Heisenberg李超代数的限制外导子来计算系数取自伴随模的1维限制上同调.
氨基酸是蛋白质、细胞的基本合成单元,在生物体系中发挥着至关重要的作用,其不仅能够帮助我们调节自身的免疫力,更是几乎与所有的生命活动相关。对氨基酸的分析传感是营养分析和疾病诊断的重要依据,所以氨基酸含量是判断身体健康的重要指标。不仅如此,氨基酸在食品工业、医药和农业等许多方面也都有广泛的应用。因此,为了高效的分析氨基酸,探索可视化方法用于监测痕量游离氨基酸,对环境和生物体都尤为重要。在此,通过设计双
德治是传统时期乡村治理的重要方式,也是现代乡村治理体系不可或缺的一环。随着数字技术的应用,传统乡村社会特征发生改变,德治在乡村面临的内外环境和实现机制也相应发生变化,成为新时期乡村治理的重要议题。通过以浙江省H村“功德银行”案例研究,探讨了数字技术赋能乡村德治的实现机制和治理效能。研究表明,数字动员机制实现了乡村德治的关系整合,数字积分机制实现了乡村德治的规则重塑,数字监督机制实现了乡村德治的内生
本文研究了在特征p>3的域上限制线状李超代数的系数取自1-维平凡模的低维限制上同调.首先,本文介绍了限制线状李超代数的系数取自任意模的限制上链空间和限制上边缘算子的定义.然后,本文刻画了限制线状李超代数的系数取自1-维平凡模的1,2-维限制上同调,并给出了相应的维数.最后,本文研究了限制线状李超代数的(限制)超导子,并给出了限制线状李超代数的系数取自伴随模的1-维限制上同调.
话语的生态性是指对生态系统产生影响的话语的生态取向。其相关研究呈现出从话语的语义到价值观念,从单维分析到多维分析的研究趋势。其中多数研究采用批评生态话语分析模式,本研究从评价理论的视角出发,分析英国《泰晤士报》中环境新闻话语的生态性。以Stibbe的生态哲学观作为指导,以评价理论为理论框架,从三方面展开研究:首先研究态度资源的分布特征和其中话语的生态性的体现;然后从生态有益性话语、生态模糊性话语、