【摘 要】
:
在数据库和大数据领域的研究与应用中数据质量是重要的,脏数据处理是一个挑战,实体解析(Entity Resolution,ER)是其中的关键问题之一。实体解析是指识别同一数据源或不同数据
论文部分内容阅读
在数据库和大数据领域的研究与应用中数据质量是重要的,脏数据处理是一个挑战,实体解析(Entity Resolution,ER)是其中的关键问题之一。实体解析是指识别同一数据源或不同数据源中表示现实世界同一实体的元组(或称记录),且将其进行合并的过程。关系数据库中传统关键词查询/关键词搜索方法和技术是基于干净数据的,因此对于具有重复元组的脏数据集,查询结果可能包含重复元组,即具有不同标识的元组表示现实世界的同一实体。针对脏数据集,传统Top-N查询可能失效,而传统实体解析的离线方法开销大,不能直接运用于查询处理。因此需要一种新的Top-N查询处理方法,既能够快速完成查询处理又能够实时去掉结果中的重复元组。本文给出一种基于实时实体解析的Top-N关键词查询处理方法。此方法构建索引表,将数据库中的元组词以及相关信息存入索引表;使用该索引表生成索引,并利用此索引确定一个查询的候选集;进而运用索引中的词频和文档频率等信息设计一个相似度函数;然后利用分治的思想设计一个聚类算法进行实时实体解析,最后返回没有重复元组的Top-N查询结果。实验使用了三个数据集并给出了一个SIMPLE方法作为基准,用来对比和验证KEYSER方法的性能。实验结果表明KEYSER方法实体解析的耗时比SIMPLE方法低一个到五个数量级,SIMPLE方法处理脏数据集的时间开销不能满足实时性的要求。此外,通过对比传统查询方法的准确度,实验结果验证了传统查询方法针对脏数据是失效的,同时还验证了把Top-N关键词查询和实体解析结合在一起的KEYSER方法,对于脏和干净的数据集都具有很高的实时性与有效性。
其他文献
当前北京城镇化已经进入了从追求速度到追求品质的转变。长期以来,受到城乡二元制度的影响,农村的集体土地始终无法直接与市场进行流通,只能通过土地征用的方式变为国有土地。为了有效释放农村集体土地的价值,北京市组织编制乡镇统筹利用集体产业用地试点实施方案,促进北京集体产业用地减量提质,提高集体产业用地利用效益,保障农民长远利益。论文的研究重点内容主要有两个,其一是构建北京市集体产业用地土地利用效益评价体系
随着网络信息时代的来临,网络信息技术已开始引起社会的关注,网络信息技术的发展在一方面方便了我们的生活,比如购物、出行等,而在另一方面也为网络犯罪提供了便利,导致信息网络犯罪日益增长。行为人利用信息网络技术犯罪早已成为普遍现象,而其中,网络技术帮助行为作为纽带,在犯罪中的作用必不可少,也到了一种用传统共同犯罪理论难以达到罪刑相适应的程度。为了应对网络时代对刑法的挑战,为了打击这一中间帮助行为,在《刑
针对现有数学表达式检索系统中待检索数学公式与目标文档之间语义关联不紧密的问题,以及用户必须了解待检索数学表达式的特定格式,从而造成受众群体仅局限于专业人员等问题。
为落实《体育强国建设纲要》,在北京体育大学艺术学院的指导下创编了民族系列广场舞。从健身运动的科学性、健身性、传承性、娱乐性以及专业性出发,创编了八套民族广场舞。此八套操结合了广场舞的基本步伐、韵律以及美感的基础,形成了一整套的民族广场舞系列。该套广场舞适用人群广,难易程度和运动强度均有不同的变化,可以让参与者在感受民族文化的同时达到良好的健身效果。本文通过对八套民族广场舞在审美特征与音乐使用、动作
机械臂由于受机械加工精度、装配误差、传动误差、磨损以及环境因素等的影响,其绝对定位精度较低。随着工厂自动化程度的不断深入,对其绝对定位精度提出了更高的要求,因此深
随着生活水平的提高和生活物质的极大丰富,肠道癌症逐渐成为医疗健康的热点关注病症。肠道癌早期没有明显的症状,主要通过检测人体肠道内息肉状态来判断,然而人体肠道内环境复杂,这给识别肠道息肉带来了很大的困难。解决息肉识别问题的方法是运用机器学习方法来判断息肉。迄今为止,人体其他器官系统,如脑部、胃部和肝脏部分普遍应用机器学习方法来识别肿瘤,但在肠道息肉领域还未被广泛研究。因而,利用机器学习的方法来进行高
目前世界正处在科技和产业的大变革时期,习总书记在2018年5月的两院院士大会上指出:“基础研究是整个科学体系的源头,是所有技术问题的总机关”,明确强调了基础研究的引领性作用。根据中国科技统计年鉴,中国的研发投入一直保持着逐年增加的趋势,2007—2016年间,中国的研发投入年均增长14%,与2007年相比,2016年中国的研发投入增长了2.3倍。但根据以往文献和本文测算结果发现:中国的全要素生产率
自动导引车(Automated Guided Vehicle,AGV)是一种装备有自动导引装置,并能够沿着给定轨迹进行路径跟随,具有一定安全防护和运载功能的无人运输车。近年来基于麦克纳姆轮的AG
穿透障碍物识别人体目标动作在武装反恐、城市巷战、灾害救援、病人监护等领域具有重要的应用价值,可用于判断建筑物内敌方士兵的行为状态,感知废墟内被困人员的生命迹象,辅助判断远程监护病人的状态以及检测老人跌倒等,已成为穿墙雷达领域的研究热点和难点。针对穿墙雷达人体动作识别的研究尚处于起步发展阶段,存在对复杂、精细动作识别准确率低等问题,本文提出基于卷积神经网络的穿墙人体动作识别方法,利用频率步进穿墙雷达
宋代洪迈《夷坚志》囊括民间信仰的多个方面,包括佛教、道教、民间神灵(自然神、人格神、邪神)、祖先崇拜、鬼、精怪等诸故事类型。作为宋代文言志怪小说的代表,处在宋代社会文化趋“俗”的背景下,也表现出世俗化倾向,艺术虚构的同时,注重写实。洪迈重视故事材料来源的可靠性,并加以考证,又是史学家出身,以小说记录历史的动机明显,其所编撰的小说文本史学价值较高。利用《夷坚志》来研究本选题的可操作性较强,符合史学研