RDF知识图谱语义近似Top-k查询研究及应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:luohz09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从超大规模数据中高效查询用户需要的信息是当前的研究热点,而知识图谱是实现大数据查询的重要解决方案之一,也因此成为了下一代搜索引擎的基石。目前知识图谱的数据主要来源于互联网,而一些网站对全世界的用户开放了协同编辑入口,使得知识图谱呈现出数据规模大且存在异构性和多样性等特点,即针对同一知识有不同的表达和描述形式,这对实现可靠有效的知识图谱查询是一个巨大的挑战。现有的研究工作大多将知识图谱查询建模成子图匹配问题,一类是子图的精确匹配查询,而知识图谱噪声数据多的特点使得该类查询容易丢失符合用户查询意图的结果;另一类是子图的模糊匹配查询,该类查询大多是根据子图的结构进行泛化却没有考虑图谱中隐含的语义信息,而知识图谱中同一关系可能有多种语义描述,导致该类查询也可能丢失符合条件的查询结果。因此,需要设计一种方法获取知识图谱隐含的语义信息,并借助该语义信息提出新的查询算法来改进现有算法在知识图谱查询精度和效能方面的不足。RDF(Resource Description Framework,资源描述框架)是知识图谱的一种存储形式,为了提高大规模RDF形式知识图谱的近似查询在数据异构性和多样性约束下的查询精度和解决性能瓶颈问题,设计一种基于知识语义理解的Top-k知识图谱近似查询方法,从知识图谱加工存储、知识图谱语义获取、知识图谱查询模型几个方面进行研究和优化。主要研究工作如下:(1)RDF知识图谱数据加工及存储优化。对基础数据集进行数据抽取和预处理,去除知识图谱中多余的无效信息,并设计基于邻接表索引的结构对知识图谱进行存储以满足后续基于语义的图查询需求。(2)提出局部子图划分方法和局部相关语料文本获取方法,将知识图谱转化为语料文本,并利用主流的文本嵌入模型对其进行训练得到语义向量。(3)提出一种基于动态界限的Top-k算法实现RDF知识图谱的高效语义近似查询,在满足查询精度的同时保证查询效率。基于上述研究成果,设计开发面向开放数据集DBpedia的RDF知识图谱语义近似查询原型系统,验证了研究成果的有效性和可用性。本文研究成果将有助于解决大规模RDF知识图谱近似查询在数据异构性和多样性约束下的查询精度和性能瓶颈问题。
其他文献
胚胎干细胞是一类来源于早期胚胎,在体外培养条件下具有自我更新和多向分化潜能的细胞。无限增殖和分化形成成体各类组织细胞的能力使其受到再生医学等领域的广泛关注。1981年Evans和Martin等人从小鼠胚胎中成功分离第一株小鼠胚胎干细胞,多年之后人、猴子和大鼠等不同物种的胚胎干细胞也相继成功建立。猪是一种重要的家畜,其在生理、解剖结构和免疫等方面与人有很大的相似性,建立猪胚胎干细胞也受到了广泛关注。
开皇九年隋征服陈国之后,携战胜之威对南方的既有政区进行了大刀阔斧的改革,以完成州县二级制的目标。从对湘川地区的考察来看,隋在这一地区的改革过程和策略可以被概括为四个方面:(1)废郡;(2)省县,即大规模省并南朝旧县;(3)移治,即将旧政区治所加以迁移或废诸县择它地新置一县;(4)增州,即增置一批州,随后又将其中若干新州废掉。四项举措之结合,构成隋在南方进行多层次政区改革的完整图景。究其原因,废郡省
晋西北黄土丘陵区气候以干旱、半干旱为主,水资源极度紧缺,是我国水土流失防治和生态环境建设的重点区域。近年来,该地区开展了大量的水土保持和退耕还林(草)工程,迫使黄土高原局部土地利用方式和生态环境默化潜移,主要表现为人造林草地土壤普遍干燥化,不仅导致植被成片衰退甚至死亡,而且急速恶化土壤水热环境,严重影响当地农林经济和社会民生的连续稳定成长。目前,如何科学地研究晋西北黄土丘陵区典型农林草地的土壤水热
目的:探讨血浆脑钠肽(BNP)水平与原发性高血压患者心脏结构及功能改变的关系。方法:纳入2017年1月到2018年11月我院心内科收治的原发性高血压患者320例,按照心脏彩超结果,分
岩溶断陷盆地区是国家石漠化综合治理工程、生态安全屏障、连片特困区,同时也是石漠化治理科技投入薄弱区。喀斯特地区脆弱的生态环境加上人类不合理的开发利用,产生石漠化问题,在云南断陷盆地区尤为严重,制约了当地经济社会的发展,威胁到了生态环境的安全。磷是作物生长发育必须的营养元素,其含量和有效性会直接影响植被的生长发育。采用科学的磷素分级方法是研究土壤磷素组分特征和有效性的关键。火烧作为一种提高土壤质量的
制革工业是我国传统优势产业,在我国经济中占有重要地位,为人们提供着生活所需的各种皮革制品。但皮革生产过程中也产生了大量铬含量高(1~4%)的制革污泥,由于缺乏行之有效的处理措施,在制革厂周围的农田上进行非法堆放成为普遍现象,如何对历史遗留的制革污泥进行安全处置已成为我国制革区的一个重要环境问题。制革污泥中含有大量的有机质、氮和磷等植物生长所需的营养物质,将其资源化利用越来越备受关注。本文以长期露天
信息安全是现代化发展中的首要任务,加密系统是实现信息安全的重要手段。传统加密技术随着计算机计算能力的迅速提升而变得不再完全可靠。而量子的不可克隆、不可区分和不确定特性,因在量子通信方面具有无条件安全的特点,已经成为信息安全领域的研究热点。量子隐形传态是量子通信中最重要的研究成果之一,它通过对相应的初始量子态和坍缩量子态执行测量操作和幺正操作来重构未知量子态信息,从而实现了高效安全的信息传输。除此之
在当下的知识经济时代,科学技术迅猛发展,而创新已然成为国民经济持续发展、企业获得竞争优势的关键因素。高新技术企业是国家创新驱动发展战略开展的关键主体,其整体绩效的
目的:检测慢性乙型肝炎(Chronic hepatitis B,CHB)患者循环血中可溶性T淋巴细胞免疫球蛋白黏蛋白分子-3(Soluble T lymphocyte immunoglobulin mucin molecule-3,sTIM-3)及 γ-干扰素(Gamma interferon,IFN-γ)的表达水平,了解慢性乙型肝炎患者在抗乙肝病毒治疗中循环血sTIM-3、IFN-γ水平变化趋势
为探究缓释氮肥与速效氮肥配施及其减量下一次性施用对稻田土壤相关性状、水稻产量及氮素利用效率的影响机制,在江苏省昆山地区以南粳46、高邮地区以南粳9108为供试水稻品种,采用田间小区试验,按随机区组设计,2018~2019年开展了大田试验。试验共设计3大处理,分别:(1)NO-F:对照,不施氮肥;(2)常规施氮量(300kg/ha N)下,设计5个小处理分别为:速效氮肥(CRF):缓释氮肥(SRF)