非结构化数据查询处理与优化

被引量 : 0次 | 上传用户:xinyang101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,诸如文本、图片、视频、音频的非结构化数据越来越多,为了存储管理这些海量的非结构化数据,出现了各种非结构化数据管理系统。非结构化数据的查询处理和查询优化问题成为非结构化数据管理系统中的一个重要问题。非结构化数据的查询相对于结构化数据的查询主要多出了两种重要操作,即相似性检索和相似性连接。本文首先综述了能够处理非结构化数据的NoSQL数据库和可以支持分布式查询的Hive,还综述了相似性检索和相似性连接的概念、分类和算法。针对非结构化数据管理系统中的查询处理和查询优化问题,本文结合D-Ocean非结构化数据管理系统提出了非结构化数据查询处理的框架D-Search。它具有既能支持非结构数据的相似性检索和相似性连接,又能支持简单的结构化数据查询,还具有针对非结构化数据的基于准则的优化和基于代价估算模型的优化方式。本文还针对相似性检索和相似性连接两种非结构化数据的查询操作,分析它们的查询处理流程和查询算法,给出了进行代价估算的方案,并设计实验验证这些查询处理流程的可行性和方案的代价估算方案的合理性。最后本文还针对文本的主题相似性连接,提出了基于KL距离的相似性连接,给出了一些可行的算法并用实验比较算法之间的效率。
其他文献
在以讽刺为基调的《儒林外史》中,吴敬梓在小说的楔子中给我们刻画了一个理想人物———王冕。在楔子中,历史人物王冕被作者加以修饰、润色,成了一个内涵丰富的"士",它体现了
谚语大都形成于民间,反映大众的智慧包含朴素的哲理,是语言中不可缺少的一部分。本文结合语言目的国的社会,历史,文化背景等对英,汉谚语作了比较分析,并根据民族文化的共性和
学龄期儿童注意缺陷多动障碍的发病率约为 11.5 % ,这对个人、家庭和社会产生深远的负面影响 ,故儿童注意缺陷多动障碍日益受到广泛重视 ,该文对目前国内外儿童注意缺陷多动
<正>出版时间:2019年1月出版社:人民邮电出版社不知道从什么时候开始,我们开始慢慢接受善意的谎言这个概念。在人际交往中,自己说话不过脑子,总是说一些让他人不开心的话,工
块状民营经济在推动河北省经济发展、扩大城镇就业、满足社会需求、促进社会和谐等方面发挥了重要作用,但在河北省产业结构调整和经济转型升级中也面临着重大的挑战。文章结
广州新电视塔高610m,由1座高达450m的主塔和1个高160m的天线桅杆构成,采用椭圆形钢结构外筒和椭圆形混凝土核芯筒组成筒中筒结构。其外框筒为由斜向立柱、水平斜向环梁和斜撑
随着科学技术和武器装备的快速发展,现代雷达面临着“四大威胁”(隐身目标、综合电子干扰、低空和超低空突防以及反辐射导弹),仅仅依靠单雷达系统的作用已经不能对抗现如今复
<正> 一、全球化的概念 迄今为止,有关全球化的提法五花八门,诸如经济全球化、竞争全球化、贸易全球化、金融全球化、技术全球化、市场全球化、西方全球化、资本主义全球化、
声乐练声曲不仅是一种特殊的音乐体裁形式,更是一类十分重要的声乐演唱训练材料。除极少数情况外,练声曲演唱主要是作为声乐教学的一个基本训练环节而存在的。然而,作为西洋