基于机器学习的数据索引技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hanminaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
索引结构是用来提高数据访问性能的重要工具,但其采用的数据结构没有考虑真实数据的分布特征。而机器学习的本质是从数据中发掘隐藏的模式,这些从数据中发掘的模式反映了数据的内在联系和分布规律。因此机器学习为建立数据索引提供全新的解决思路。此外,机器学习模型存储空间小、并行度高、查询速度快的特点可以有效地提高索引的查询性能,降低索引带来的空间开销。然而目前基于机器学习的索引结构(简称学习索引)存在着以下不足:1)从多个维度构建主键索引时,学习索引带来的误差范围很高,查询开销急剧增长;2)只适用于聚簇索引,不能应用于二级索引的场景。本文针对学习索引存在的不足,对基于机器学习的数据索引技术进行深入研究。
  首先,针对学习索引在多维数据上误差范围过大的问题,通过深入分析索引问题的特点和需求,本文提出了一种递归提升模型索引结构Recursive Boosting Model Index(简称B-RMI)。在模型分层结构的设计下,本文通过三个方面进行结构的优化:自顶向下拟合预测残差来充分利用非叶子模型的拟合效果、权重更新来提高对离群数据的关注度和预设阈值进行数据剪枝,从而提高整体索引结构的预测准确度。
  其次,针对学习索引不适用于二级索引的局限性问题,本文提出了一种两阶段二级索引模型结构。其中第一阶段通过二分类模型和Bloom Filter进行两步筛选,将数据划分成唯一键值和非唯一键值,并保有一定的误判率。然后在第二阶段根据两类数据的特点,分别构建索引模型进行处理,从而满足二级索引的查询要求。
  最后,基于上述两个理论成果,本文先通过合成数据和 OpenStreetMap 真实地点数据对B-RMI、RMI和B-Tree结构性能进行比较分析,表明B-RMI结构在多维数据上的预测准确度有显著提升。然后通过开源NYC出租车数据、基准测试工具TPC-D生成的不同倾斜度订单数据和Instacart 商店数据,对两阶段二级索引结构和 B-Tree二级索引性能进行比较分析,表明该结构在提高查询效率和降低内存开销上的优势。最终验证了本文研究工作的可行性和有效性。
其他文献
图像超分辨率技术是指通过软件算法来提高图像的空间分辨率并恢复更高频率的细节信息,从而获得更丰富的图像内容。如今,图像超分辨率技术在视频处理领域获得了更多的关注,视频超分辨率成为研究热点。得益于硬件成本低、部署难度小等优势,视频超分辨率技术可以嵌入在录制、传输、播放、应用等各个阶段,对于提高成像质量、降低传输带宽、改善视觉体验、优化智能应用等方面均可起到突出作用,具有极高的应用价值。本文主要关注视频
学位
近年来,实值神经网络(Real Neural Network,Real NN)在学术界和工业界受到广泛关注,网络的构造、推广及其合理的解释是当前人工智能应用基础理论研究的重要研究内容。作为深度学习的经典学习模型,实值卷积神经网络(Real Convolutional Neural Network,Real CNN)在语音识别、图像处理、医学辅助诊断等领域均取得了显著成果,但是它的网络结构中通常不考
近些年来各行各业高速发展,对人才的选择日趋重要,人才选择最重要的是人才评估。尽管当前招聘形式种类多样,但人才评估依赖于学历证明的情况并没有发生改变,这导致学历造假现象层出不穷。此外,各大企业招聘人才需大量笔试、面试,导致招聘效率低下,且应试型考试能够考前突击,从而取得很好成绩,并不能真实评估人才水平。基于学习经历大数据(以下简称学历数据)生成学生画像,进而实现客观人才评估的方法,近年来受到了很大关
学位
近年来,随着智能设备的普及,移动应用得到迅速的发展。这些应用往往依赖于基于位置的服务,通过使用用户的坐标位置或者语义/逻辑位置为用户提供个性化服务内容。基于位置服务的应用对用户位置信息的访问带来了严重的隐私隐患,为了使用户在获得基于位置服务的同时保障其隐私不受侵犯,研究者们针对位置隐私定义以及隐私与功能之间的最优化权衡展开了研究。  现有的隐私定义主要基于信息论和差分隐私这两个概念,且主要针对用户
学位
随着网络信息技术的不断发展,互联网已经成为国民经济和社会发展的重要基础设施,各类业务与应用对网络基础设施的可扩展性和健壮性要求达到了新的高度。IETF提出的新一代网络管理协议 NETCONF,以及用于描述网络配置和状态数据的 YANG 模型,可以降低人工运维成本,使网络运维趋于自动化。  然而由于业务现实等因素,各家厂商和标准化组织构建的YANG模型存在异构性,不同来源的YANG模型在语义上难以统
学位
近年来,传统数据中心网络的性能已经无法满足分布式应用日益增长的网络需求,新型的低延迟数据中心网络应运而生。低延迟数据中心网络的核心技术是RDMA,即远程直接内存访问技术。RDMA本质上是将协议栈卸载到硬件中,实现了内核旁路技术,避免了传统网络中数据从用户态到内核态的拷贝开销,同时省去了内核处理的开销,为数据中心分布式应用提供了低延时和高带宽的性能优势。RDMA 与数据中心应用的结合使得传统的基于T
学位
X射线数字化放射成像(DR,Digital Radiography)使得医生在无创条件下,能够初步掌握关于病人病情和病灶的基本信息,在众多疾病的医学临床检查和诊断中扮演着不可替代的重要角色。为了降低电离辐射可能带来的致癌风险,低剂量成像是目前临床应用的必然趋势。然而降低辐射剂量将引入大量噪声,导致成像结果严重退化。近年来,随着硬件技术的发展和深度学习理论日渐成熟,基于卷积神经网络的图像噪声抑制研究
学位
近年来,随着证书的普及,学历造假、隐私泄露等事件层出不穷。已有的解决方案大多是基于传统的中心化数据库存储技术,会造成数据丢失、泄露且难以恢复的情况,存在一定的弊端。即便能够保证数据可信,但单凭学历证书也并不能完全代表一个人的能力。  区块链技术的提出为解决上述问题提供了新的思路。学程链是一个基于区块链的学历鉴证平台,它通过将学生全周期的学习经历数据、数字身份存储于区块链上,保证学生数据安全且不可篡
肾癌是人类最常见的十大癌症之一,在治疗肾癌以及肾脏的另一些良性肿瘤方面,外科手术是最佳选择。其中,保留肾单位手术(Nephron Sparing Surgery,NSS)是治疗肾肿瘤的一种有效方法。NSS手术前需要进行计算机断层扫描增强造影(Computed Tomographic Angiography,CTA)确定位置、大小等信息,为此需要在 CTA 图像中进行肾脏定位,并对手术相关组织边缘进
学位
水下目标检测作为诸多水下作业的先决条件之一,通过区分水下多类别目标的不同个体并准确定位,为观测者对水下探测的深入研究提供保障。而声呐图像目标检测作为水下目标检测的关键任务,具有高频,高分辨力,多波束及实时性强的特点,在工业及军事等诸多领域均有着广泛的应用价值。因此面向声呐图像的目标检测任务对于水下探测具有重要意义。  然而传统目标检测算法无法满足声呐图像目标检测任务对处理效率、性能及智能化等方面所
学位