面向大规模RDF数据的语义搜索

被引量 : 19次 | 上传用户：shigaomin

【摘要】

：

语义万维网通过赋予信息明确的结构和语义,使得机器不仅可以显示这些信息,更能够理解、处理和整合它们。近年来,随着链接开放数据和DBpedia等项目的全面展开,语义Web数据源的

【作者】

：

王昊奋

【发表日期】

：

2013年01期

【关键词】

：

语义搜索混合查询图数据索引查询优化实体匹配查询翻译排序

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语义万维网通过赋予信息明确的结构和语义,使得机器不仅可以显示这些信息,更能够理解、处理和整合它们。近年来,随着链接开放数据和DBpedia等项目的全面展开,语义Web数据源的数量激增,大量以RDF为数据模型的图结构语义数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。在这种背景下,以谷歌为代表的各大搜索引擎公司纷纷以此为基础构建知识图谱来改善搜索质量,从而拉开了语义搜索的序幕。与传统的文档检索不同,语义搜索需要处理粒度更细的结构化语义数据,因此也面临着更大的前所未有的挑战。原有成熟的针对非结构化的Web文档的存储与索引技术对RDF数据不再适用。现有的排序算法也不能直接应用到面向实体和关联的语义搜索中。SPARQL查询支持和面向异构语义数据源的数据整合是全新的问题。此外,支持用户熟悉的关键词查询对于语义搜索推广的至关重要。本文旨在全面系统地解决了面向大规模RDF数据的语义搜索所面临的挑战：支持大规模图数据存储与索引,支持包含关键词的图结构查询,支持以实体为中心的结构化排序,支持面向多数据源的异构数据融合,和支持友好的用户交互等。论文各章的主要内容和贡献如下列出：第一章为绪论,介绍了研究背景,总结了语义搜索的国内外研究现状并详细描述了面向大规模RDF的语义搜索所面临的主要挑战。第二章首次使用信息检索的方法来搜索数据万维网。通过利用和扩展倒排索引来支持高效的单变量树型混合式查询处理。在此基础上,我提出了一种基于关系的排序算法来返回相关的实体,使用分面浏览来允许用户交互性地构造混合式查询,以及基于块的索引来支持增量式索引更新。第三章扩展了第二章的结构化查询能力,提出了一个高效的RDF查询引擎来执行更一般的SPARQL查询。此外,我通过收集特定的RDF统计信息来估计查询计划的执行代价,并设计了一个全新的查询优化算法来确定最优的联结顺序,将SPARQL查询图转换为最优的查询计划。第四章讨论了基于RDF图模式的高效查询处理。本章介绍了两种模式选择策略,一种通过启发式规则来选择RDF频繁子图,另一种使用查询历史来选择用户偏好的子图结构。在前两章的基础上,我进一步提出基于图模式的高效索引,通过模式树来表示查询计划,并将SPARQL查询转换为子模式覆盖问题来解决。第五章提出了一个二阶段整合的解决方案来解决面向大规模RDF图数据的语义搜索中的实体匹配问题。通过分块来快速筛选候选实体对以解决可扩展性方面的问题。接着,利用实体的局部结构特性在每个分块内部进行聚类,取得最终的匹配结果。本项工作也是首次尝试通过利用开放链接数据中现有的sameAs三元组在大规模场景下进行广泛的实体匹配效果评估。第六章研究了一种新颖且友好的关键词搜索交互方式,即在大规模图数据(特别是RDF数据)上如何进行高效的关键词查询翻译。我提出了一个新颖的前k子图搜索算法,将关键词查询转化为结构化查询,而不是直接计算查询结果。我还利用摘要技术来生成只包含图模式信息的聚合图,来加速查询翻译过程。第七章介绍了一个支持按需支付数据整合的数据万维网搜索基础架构。本章将查询翻译扩展到在异构的万维网数据源上,即将用户关键词翻译为一个跨越多个数据源的语义结构化查询。此外,我详细介绍了数据万维网上进行分布式查询处理的技术,特别是映射联结。它利用第五章提到的大规模实体匹配方法来预先计算数据层映射,并对从异构数据源中获得的结果进行高效合并。第八章将语义搜索应用场景扩展到同时包含图结构数据、网页以及相应语义标注的混合网络环境中。通过整合信息检索和数据库技术来构建一个可以扩展到大量文档、图结构数据和语义标注的数据库。此外,我提出了一个新颖的数据结构来表示混合搜索返回的(中间)结果,并设计了一系列针对混合查询处理的高效算法。第九章总结了本文主要工作和成果并对语义搜索的进一步研究做了展望。

其他文献

纳米SiO2和含氟丙烯酸酯改性水性聚氨酯胶粘剂的研究

复合膜由于具有更好的保鲜、避光、美观等特点在软包装领域得到迅猛发展，而用于薄膜复合的复膜胶是影响包装性能的重要因素。目前，大多数复膜胶为水性聚氨酯胶粘剂。然而，单一的

学位

水性聚氨酯胶粘剂纳米SiO2含氟丙烯酸酯粘接机理

复杂环境下煤岩体耦合致裂基础与应用研究

复杂条件下特厚煤层综放开采的关键是提高顶煤冒放性、降低煤岩体应力集中。注水和爆破作为煤岩体致裂有效的手段得到广泛使用。煤岩体结构及其材质的天然复杂性导致煤岩体耦

学位

复杂环境急倾斜煤岩体综放工作面耦合致裂

要素禀赋与战略性新兴产业的区域嵌入研究

国际金融危机爆发后，发达国家重新认识到实体经济的重要性，发展战略性新兴产业成为各国政府的焦点，他们试图在新的产业建立全球竞争优势取代丧失竞争力的传统产业，抢占新一轮经济

学位

战略性新兴产业要素禀赋结构空间计量区域

煤矸石与土工格栅界面特性研究

本文以煤矸石和聚丙烯双向拉伸土工格栅（GSL40/PP）为研究对象，首先通过煤矸石与土工格栅室内拉拔试验，研究了上覆压力、细料含量和含水量三种因素对煤矸石填料和土工格栅间界面特

学位

煤矸石土工格栅界面参数数值模拟加筋路基

泉州市丰泽区国库集中支付中财政监督问题研究

近年来，财政国库集中支付制度作为公共财政管理制度的核心内容之一，已经成为改革的必然选择。我国国库集中支付改革的实施使财政监督职能得到了发挥,从而提高了财政资金的使用

学位

国库集中支付财政监督财政资金

基于双目图像的2D-3D图像转换方法研究

近年来，3D风暴席卷全球，越来越多的观众热衷于观看3D电影，3D电视也走进了更多的普通家庭。随着3D产业的发展，其市场份额不断扩大，3D视频资源匮乏问题成为阻碍3D技术发展的棘手问题

学位

2D-3D转换图像分割置信度光流法视差图

摩擦式矿井提升机关键旋转体动态特性研究

关键旋转体（主轴、卷筒、天轮）是摩擦式矿井提升机传递动力和承受载荷的枢纽构件，其动态特性与提升机的健康状态密切相关。当主轴处于弯曲、不平衡、关联组件松动、主轴滚动轴承

学位

摩擦式矿井提升机主轴振动卷筒应力天轮转动

头脑风暴法在高中英语教学中的应用研究

头脑风暴原本是指精神病患者头脑思维混乱的状态。“头脑风暴”其英文为“Brainstorming”。其译法较多，又被称为智力激励法、多重思维法、创造思维法。这一方法的提出者是美

学位

头脑风暴法高中英语教学应用

道路旅客运输企业安全评价研究

道路旅客运输安全关系着亿万群众的安全出行以及社会的安定和谐。在道路旅客运输日益发展与群众出行需求日益增长的今天，道路旅客运输企业的安全形势却不容乐观，面临着巨大的考

学位

安全评价道路旅客运输企业层次分析法模糊综合评价法

TGF-β1基因多态性与多囊卵巢综合征相关性分析

目的:探讨TGF-β1基因5个位点（rs4803457、rs11466313、rs2317130、rs1800469、rs1800470）的单核苷酸多态性及其构成的单体型与中国广东汉族妇女多囊卵巢综合征的相关性。方法：

学位

TGF-β1多囊卵巢综合征（PCOS）单核苷酸多态性（SNP）单体型分析

面向大规模RDF数据的语义搜索

与本文相关的学术论文