【摘 要】
:
目前,Top-N查询处理和优化的研究主要是针对Top-N选择查询,而Top-N连接查询相关研究仍然较少。传统Top-N查询处理方法通常未整合实体解析技术,对于包含重复元组的脏数据集,这些方法可能检索出重复的Top-N结果,难以得到足够多的有效元组,查询效率低下。此外,对于大型数据集,实时实体解析是一个具有挑战性的问题。因此,如何将实时实体解析与Top-N连接查询有效融合,是一个有待深入研究的重要课
论文部分内容阅读
目前,Top-N查询处理和优化的研究主要是针对Top-N选择查询,而Top-N连接查询相关研究仍然较少。传统Top-N查询处理方法通常未整合实体解析技术,对于包含重复元组的脏数据集,这些方法可能检索出重复的Top-N结果,难以得到足够多的有效元组,查询效率低下。此外,对于大型数据集,实时实体解析是一个具有挑战性的问题。因此,如何将实时实体解析与Top-N连接查询有效融合,是一个有待深入研究的重要课题,同时面临非单调排序函数、任意查询点、维数灾难以及实体解析的代价等挑战。针对d维赋范空间((?)d,||·||)中包含重复元组的脏数据集,基于“顺序访问和/或随机访问”及“非猜测条件”,本文研究融合实时实体解析的数值Top-N连接查询模型。对于有限维lp空间中的任意查询点,以范数距离作为非单调排序函数,运用泛函分析中的范数等价定理和最大范数距离,计算查询半径,确定候选元组,并给出实时实体解析算法对候选集进行聚类;不断扩大查询半径,直到候选集中包含足够多的候选元组,最终得到Top-N连接查询结果。本文给出三种数据库友好算法,分别处理以下三种数据访问方式下的Top-N连接查询:“既有顺序访问又有随机访问”、“限制顺序访问”以及“无随机访问”。主要工作如下:(1)构建索引:基于有序列表结构,为每个关系的相关属性创建索引。(2)设计并实现算法:基于“顺序访问和/或随机访问”及“非猜测条件”,给出三种融合实时实体解析的数值Top-N连接查询处理算法,即算法Er TA、算法Er TAz和算法Er NRA,能应用于Web可访问数据库,也适用于传统的关系数据库以及分布式数据库。(3)实验分析:针对上述三种查询算法,使用12个不同维数不同数据量的脏数据集,用曼哈顿距离、欧几里得距离和最大范数距离作为排序函数,分别对两个关系、三个关系和四个关系的连接查询进行大量实验;使用多种度量验证、对比和分析对查询性能有影响的相关因素,实验结果表明本文给出的融合实体解析与Top-N连接查询的处理和优化算法是有效的,能够快速且准确地处理脏数据集上的数值Top-N连接查询。
其他文献
随着互联网和电子设备的快速发展,图像、文本、音频等数据正在以不可想象的速度增长,此类数据蕴含众多的信息但无标签,人工为数据标注类别信息的代价大,但是对海量数据的智能管理已然成为一种现实需求和必然趋势。图像聚类分析从数据中挖掘有代表性特征对数据进行分类,在人工智能等很多领域广泛应用,越来越受到研究的重视。现有的聚类算法普遍存在训练误差较大、聚类性能依赖特征表达能力、泛化能力弱等问题。如何设计具有较强
当面对一个分类问题时,如何从众多的可用算法中选择当下问题最适合的算法是一个具有挑战性的问题。相关研究表明分类算法的表现强烈依赖于数据本身的特性,因此人们相信更好地理解数据集对分类算法的研究发展至关重要。元学习将算法选择作为一项学习任务来解决,试图学习元特征和最佳算法之间的映射,而其核心问题在于元特征的构建,即定义哪些数据特征对算法选择最有价值。目前大部分的方法中只考虑了简单特征和统计特征,无法很好
许多机器学习问题都可以表示成损失函数加正则化项的形式,目前最流行的求解方法是以随机梯度下降(Stochastic Gradient Descent,SGD)为代表的随机梯度优化算法。然而,最常用的小批量或单样本的随机梯度下降是计算速度与求解精度的折衷。随机梯度下降的优势主要有两点,一是每次迭代不需要计算全样本梯度,减少了计算量;二是避免由于样本数据过大导致的内存不足问题。但是这带来的问题是引入了随
图像聚类是机器学习和计算机视觉中一项关键而又具挑战性的任务。传统的聚类方法,如K-Means,谱聚类,凝聚聚类等已广泛应用于各类任务,并取得了不错的结果。但对图像等高维数据进行聚类时,由于很难抽取到可判别的视觉特征表示,往往无法得到满意的聚类结果。为了解决该问题,很多研究者提出使用不同的深度卷积网络学习图像数据的特征表示,并结合传统聚类算法,实现图像数据的深度聚类,且已取得了较好的结果。本文主要基
近些年,深度学习作为一种人工智能技术取得了前所未有的发展,在许多领域都取得了巨大的成功,展现出了强大的应用潜力。然而,最近的研究表明深度神经网络(Deep Neural Networks,DNNs)模型容易受到对抗样本的愚弄。所谓对抗样本是指那些通过精心添加一个不易察觉的扰动设计的对抗性样本,对抗样本可以愚弄一些最先进的DNNs模型,导致DNNs给出错误的分类结果,这阻碍了在现实世界中部署DNNs
在数据挖掘领域,分类问题一直都是研究的重点,而传统的分类器大多是针对平衡数据进行分类,无法对不平衡数据进行准确地分类。为了解决数据不平衡分类问题,人工少数类过采样法被提出,但由于是随机选取少数类样本的近邻样本进行生成新样本,容易导致少数类边界模糊的问题。为了弥补这一缺陷,基于引力的人工少数类过采样法(GSMOTE)被提出。首先,该方法结合原始支持向量机和K近邻方法对原始数据进行去噪,避免噪声样本生
近年来,语音情感识别的研究一直是一项具有挑战性的任务。语音情感识别的目的是从语音中提取情感特征,并将其分类为快乐、悲伤、愤怒或中性等情感。早期的语音情感识别的研究广泛依赖于使用音频特征来构建性能良好的分类器的模型。但人类在对话中不仅通过语音表达情感,还通过面部表情和身体动作来表达情感,而语音信息本质上是由声学特征和文本信息组成,因此文本信息中也包含情感特征。由于仅使用语音数据的情感识别模型的性能逐
随着科技的进步,我们已经进入了海量数据的时代,人们生活的方方面面都会产生海量数据,这些数据属于各种各样的类别,在现实生活中这些类别下的数据大多数都是非平衡的。例如病例诊断,天气气候分类,野外稀有物种的检测、垃圾短信检测等。如何有效准确地分类这些非平衡数据就变成如今一个非常热门的研究领域。绝大多数的分类算法在分类时会偏向多数类别的群体,而对少数类别分类效果不好,在一些极端情况下甚至会完全忽略少数类别
基于重构的异常检测方法是指使用重构误差作为异常得分的异常检测方法,在其训练阶段,训练集仅由正常数据构成,当训练数据较为充分时,它在该训练集上能够取得较小的重构误差。在测试阶段,正常数据的重构误差和异常数据的重构误差会出现较大的差异,因此可以利用重构误差将待测数据判定为正常数据或异常数据。作为常用的基于重构的异常检测方法,基于生成式对抗网络(generative adversarial nets,G
在计算机硬件性能提升的基础上,深度学习算法被广泛应用,人工智能技术不断有新的突破。其中图像和文本领域的技术创新尤为显著,主要体现在问答系统、目标检测、情感识别等研究方向上。本文主要研究的是计算机视觉与自然语言处理的交叉领域——视觉问答系统。视觉问答系统是多模态领域的一项热门研究问题,该系统的主要任务是分析与识别图像和文本两种模态下的表征数据,并对多个模态下的数据进行特征融合处理,以便获得相应问题的