网络表格中的外键检测算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:chensheng76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络上涌现出越来越多的表格数据。这些结构化的网络表格覆盖面广且信息量大,因而备受人们关注。作为数据库中最重要的约束之一,外键关系对数据分析与集成有着重要的意义。然而对于来自异构数据源的大量的网络表格来讲,其外键关系并未显式指定。因此,发现外键关系对于理解和利用网络表格至关重要。现有的外键关系检测算法存在一定的局限性:一方面,目前的外键关系检测工作大部分针对传统关系表,并依赖表中结构信息进行外键检测,而网络表格通常缺乏列名以及表名等模式信息,因此传统方法对网络表格并不适用。另一方面,现有的外键检测算法只能保证属性列间的语义相关性,却并未考虑由于网络表格的异构性,以及外键关系所需满足的属性参照规则而产生的大量冲突外键。针对以上问题,本文对网络表格中的外键关系检测算法做了深入研究,具体工作如下:(1)提出基于分布拟合的网络表格外键检测算法,以解决网络表格中的外键检测问题。我们首先放松外键关系应满足的规则,通过定义拟合优度来衡量两种分布间拟合程度,以便评估候选对是否为真正的外键关系;此外,我们提出多遍划分策略用于分区图构建,使得我们的算法可以更有效地检测外键关系并可以扩展到大型网络表格。(2)提出基于冲突依赖消除的外键检测算法,以提升算法的准确性。综合考虑外键关系中存在的冲突依赖,构建包含依赖图的层结构,定义外键关系强度来对冲突外键进行评分,并在逐层消除冲突依赖的同时筛选出真正的外键关系。(3)对真实的网络表格数据集进行了大量实验,以验证算法的有效性。实验结果表明,该算法与传统方法相比更适用网络表格,且在效率以及可扩展性方面均优于目前的方法。
其他文献
脊髓损伤(Spinal cord injury,SCI)是由炎症、感染、外伤等引起的脊髓功能丧失,临床主要表现为运动感觉功能障碍、尿便障碍、神经痛等。脊髓损伤的发生率不高,却具有高致残率
深度学习通过多层特征提取方式,可以将原始复杂数据自动表征为高级抽象特征,该方法具有很强的建模能力,在模式识别、语音识别、自动驾驶、人机对弈、计算机视觉、自然语言处
随着信息爆炸式增长,计算机需要处理的信息越来越多,但是硅芯片的技术难以支撑日益增大的计算量,导致计算机领域遇到发展瓶颈。为了解决这一问题,科学家提出了生物计算机概念。随着生物计算机研究的逐渐深入,人们发现DNA的并行计算能力,纳米分子结构,超高的存储能力等特点在突破计算机发展瓶颈上有很大的优势。生物分子逻辑运算(如DNA计算或DNA编程诊断)也因此受到了广泛关注。目前生物分子逻辑运算模型大多通过荧
春秋战国时期,百家争鸣为君主寻求济世安民之道,他们各自为营,产生了儒、法、道等政治思想学说,围绕时政展开激烈的讨论。直到战国末期,政治、制度开始趋于统一,百家在争鸣的
在现实世界的管理与工程领域,存在着诸多多目标优化问题。一个多目标优化问题通常存在多个而不是单个最优解。而基于群体的进化算法(evolutionary algorithms,EAs)在一次运行中就可以同时搜索到这多个最优解。虽然大多数已存在的多目标进化算法(MOEAs)都是基于帕累托占优的算法,近些年提出的一些基于分解的多目标进化算法表现得越来越成功和流行。尤其是一种采用锥形分解方法的锥面积进化算法
Linux系统中存在的安全隐患绝大部分都由内核引发,而设备驱动程序在内核中占据重要地位,因此设备驱动程序涉及到的安全漏洞问题极有可能造成整个操作系统的瘫痪。由于驱动程
随着移动互联网的兴起、新兴媒体的普及,各种拍照、摄像设备的爆炸式增长,人们将各种图像分享到社交媒体上,在线图像的数量巨幅增长。如何在这些数量庞大、内容丰富的图像数据中检索出相似图像,一直是图像领域研究的热点问题。图像的特征选择和检索的效率是图像检索研究者们关心的重点问题。选取合适的图像特征对图像检索的性能很重要。卷积神经网络(Convolutional Neural Networks,CNN)由更
目的:胆管癌(CCA)恶性程度高,是由胆管细胞沿胆道恶性转化形成的异质性肿瘤,在解剖学上分为肝内胆管癌和肝外胆管癌,近年来发病率逐年攀升,在肝胆系统恶性肿瘤中占7%-10%。某
目的:检测DNA复制关键酶核糖核苷酸还原酶M2肽(Ribonucleotide Reductase,RR)在慢性乙型病毒性肝炎、肝硬化、肝细胞癌患者外周血中的表达差异并分析其影响因素。方法:本研究
聚类分析是一种无监督学习方法,它使得同一个簇的内部对象具有高度相似性,不同簇间的对象具有低相似性。相较于有监督学习(分类)而言,聚类分析要困难得多。近年来,深度神经网络在图像分类、自然语言处理和语音识别等领域取得了巨大成功,其重要原因之一在于它能够自动提取出数据的多种层次特征。本文利用深度神经网络和弱监督信息—成对约束—来进行聚类。成对约束是指对象间的一种二元关系,即两个对象必须属于同一个簇(Mu