通过转换、高效执行和增量可视化的基于规则的数据库补全

来源 :东南大学 | 被引量 : 0次 | 上传用户:phoenixs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库系统在人工智能的开发中起着至关重要的作用,当前数据库系统技术的进步主要围绕以数据库管理和可用性等问题为主题的方案创新。研究文献表明,数据管理任务中有很大一部分工作致力于合并和评估数据质量。在构建智能系统时,数据库中缺失值也会消耗大量资源。可用性通过帮助开发人员降低使用新技术的学习曲线,从而对智能系统的快速发展产生重大影响。因此,这些主题的重要性不能被过分夸大,这促使我们通过本论文对它们进行研究。当前的一些工作使用规则来进行数据库补全。我们最开始注意到的问题是数据库补全规则中通常存在语法错误,而这可能导致某些数据库补全规则无法执行,使得数据库中的许多缺失值不能得到准确的填充。即使在校正了这些规则之后,校正过程也会引入虚假的规则条件。现有的纠正数据库准备规则的方法存在各种缺点,有些需要外部数据集,有些需要人工参与标注大量训练样本,一些没有任何人工参与的方法则缺少可靠性。直接使用现有的方法(例如基于Q-gram的数据转换)可能效率不高,因为它们需要处理整个数据集才能找到数据转换。然后,我们注意到从上一步生成的更改后的数据库补全规则具有虚假条件,所以我们可以通过在早期识别出此类虚假规则条件并进行剪枝来使系统更高效。除此之外,我们还为用户提供了更改此类数据库补全规则并验证结果的灵活性。在这之后,我们发现数据库补全规则内部可能缺少条件。当前,现有文献中没有用于计算数据库补全规则缺失条件的方法。然后我们发现虽然当前各类研究中提出了许多可视化解决方案,以帮助用户完成数据库的匹配和匹配任务,但是这样的可视化不是增量生成的,也不是很健壮,并且还没有其他工作将完成和匹配的可视化结合起来以生成混合可视化。当前工作中的这些不足之处促使我们做出以下工作:1.本文的第一项贡献在于规则修正和数据库补全系统中的排序步骤。我们提出以PBE数据转换的形式使用数据准备系统组件,并记录匹配规则以纠正数据库补全规则。此外,我们还提出一个数据库补全系统排序步骤,可以利用中间结果和创新性的查询日志的PBE数据转换。2.本文的第二个贡献是在较早生成的修改后的数据库补全规则中快速检测虚假条件的问题。它涉及到构造草图数据结构,例如用于不完整记录的布隆过滤器。本文提出的方法的优势在于它基于利用记录匹配规则来创建与缺失值相关的必需摘要的方法。我们还提出了一种自适应编辑距离阈值方法来为缺失的条目选择相关的属性值,另外,我们还提出了一个评分函数,以从实体解析规则中查找数据完成规则中的候选条件缺失。本文的结果表明最大化建议分数函数的问题是一个NP完全问题,也因此,我们引入了基于贪婪的近似解和基于模拟退火的近似解来求解这个问题。3.本文的第三个贡献是我们修改了现有的数据准备系统中的可视数据质量评估方法,从而生成增量健壮的可视化效果以补全数据库,为此我们使用面向空间的可视化效果并与数据匹配的可视化效果结合。我们利用数据准备系统组件中可用的记录匹配规则,它首先通过在用户参与下生成热图来工作,然后根据与数据匹配可视化有关的可视化数据移动自动连续优化此热图。这种可视化功能使用户可以迅速找到增量缺少条目值的数据库。本文还提出了反馈驱动源的技术,以提高鲁棒性的同时减少执行时间并提高相关性。
其他文献
桥梁作为基础设施的重要组成部分,其健康状况直接关系到社会公共安全。在当前的人工智能时代背景下如何利用前沿技术来为桥梁的监测、运营与维护服务,成为研究人员关注的热点。本文以计算机视觉技术为基础并结合深度学习算法,针对当前基于视频图像的桥梁车流信息识别及防船撞预警方法中存在的问题进行研究。在桥梁车流信息识别中现有方法存在识别目标信息单一,鲁棒性不强等问题。针对上述问题,本文提出基于图像实例分割的车辆全
非合作水声通信信号的截获与辨识是水声通信信号处理领域的研究热点之一。论文针对无先验信息条件下,即非合作条件下的信号截获、特征与参数提取以及通信信号模式判决等技术进行了研究。本文的主要研究内容和贡献如下:(1)针对常规能量检测方法没有充分利用水声通信信号特点使得信号处理增益较低的问题,本文利用水声通信信号的循环平稳特性以及循环平稳分析良好的抗噪声性能,引入了基于循环平稳的信号检测方法。同时在传统循环
心血管疾病严重威胁着人类健康,其发生的主要原因是动脉血管出现粥样硬化。作为治疗动脉粥样硬化的常用手段,血管支架植入术虽然具有疗效快和术后并发症少等优点,但血管支架植入后易发生支架内再狭窄。支架内再狭窄的发生不仅和植入支架的结构有关,也和支架植入后血管内生物力学微环境的变化密切相关。本文基于有限元和计算流体力学数值分析方法,研究了不同斑块形态和组分对血管支架植入后支架-斑块-血管间相互作用的效应,同
土木基础设施是体现国家综合国力及科学技术发展水平的重要标志,其安全服役关乎国计民生。结构检测评估和结构健康监测是当前桥梁结构管养进行决策的主要依据,不管是结构检测评估还是结构健康监测,都会产生大量的数据,传统的数据分析手段难以对检、监测数据进行高效的分析处理。如何快速的分析海量数据、挖掘数据深层特征以及将分析结果反馈应用到后续桥梁运维管理中,成为土木领域当下研究的前沿热点。基于此研究背景,本文从结
近年来,随着经济和社会的发展,人们对具有超常特性的新型材料需求越发强烈。超材料是人为设计内部结构单元的超常材料,具有天然材料所不具备的特殊物理性质,可以满足更苛刻的环境条件,也更能适应实际工程中的不同需求。折纸和裁剪结构由于其极其丰富多样的形态和无穷的设计空间,最近成为超材料重要的设计来源,受到科学界和工程界的广泛关注。基于折纸和裁剪技术,本文将理论研究、数值模拟与实验相结合,从形态和力学特性方面
井筒式地下连续墙是一种新型的桥梁基础形式,具有整体刚度大、承载力高和抗震能力强的优越性能;然其荷载传递机理复杂,承载性状不明确以及计算方法不成熟,制约了这种基础形式的发展应用。目前,水平变位主要采用八弹簧和四弹簧计算方法(分别针对刚性和弹性井筒式地下连续墙);竖向沉降主要采用荷载传递法;这些计算方法均基于Winkler地基模型,将墙侧土体视为弹簧。Winkler弹簧模型简洁方便,但具有很强的经验性
大应变冷拔珠光体钢丝因具有超高强度的同时兼具一定的塑性,广泛应用于桥梁缆索、汽车钢帘线和切割钢丝等重要工作领域。珠光体钢丝经过超大应变的冷拔后,出现渗碳体分解、加工硬化率显著降低等现象,限制钢丝的强度进一步提升。与珠光体相比,纯铁成分和组织结构简单,只有单一的铁素体相,深入研究剧烈拉拔条件下铁素体组织的形变和热稳定性,对理解超大形变珠光体的形变和强化有着重要的借鉴作用。本文以工业纯铁为研究对象,研
多维力/力矩传感器已广泛应用于基于力触觉的人机交互、智能机器人、生物医学研究、医疗器械、汽车、航空航天等领域。六维力传感器可以同时检测三维空间的三个力分量和三个力矩分量。在人机交互领域,力触觉交互是一种可双向传递信息的新型人机交互技术,它能够让操作者触摸、感知和操纵虚拟物体,并向操作者再现虚拟物体的多种特征信息,其中多维力传感器将感知的力觉信息传递给控制器,然后通过执行器向用户传递交互中产生的力信
集装箱多式联运具有产业链长、高效便捷、集约经济、安全可靠等优势,是货物运输发展的重要方向。发展集装箱多式联运,对推进经济供给侧结构性改革、扩大交通有效供给、更好发挥区域交通优势、降低全社会物流成本等具有重要作用。在国家“一带一路”经济战略的引导下,中国物流业进入了高速发展的阶段,集装箱多式联运也迎来了空前的发展机遇,广阔的多式联运市场也带动了一批货运代理企业的发展和壮大。货运代理企业在运营中,需要
硅基集成光子技术以其损耗低、功耗低、体积小等优势逐渐成为解决信息网络中面临功耗高、损耗大等瓶颈问题的关键技术之一。而在硅基光子集成平台中,氮化硅波导因其低的传输损耗、透明波段范围大、无双光子吸收和与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容等优点,在处理高光功率、实现非线性和线性光学功能等领域有着重要的作用。并且氮化硅(