论文部分内容阅读
语义网(Semantic Web)的提出开启了人和计算机能够相互理解的时代,它使得网络资源携带一种元数据信息,从而能够在计算机之间以及人与计算机之间准确传达语义信息,这种元数据就是RDF(Resource Description Framework,资源描述框架)数据。随着语义网技术的不断发展,包括RDF数据和OWL(Web Ontology Language,网络本体语言)数据在内的元数据统称为本体。随着本体技术在不同领域的广泛应用,本体数据的规模也超出了传统存储系统的管理能力,如何对海量本体数据进行有效存储和高效查询成为难题。No SQL(Not only SQL)和分布式存储与计算技术的迅速发展为本体数据的管理提供了新的解决方案,越来越多的语义网研究者已经开始致力于这方面的探索。本文围绕着No SQL和本体存储与查询开展了如下工作:①在语义网技术的研究背景下,介绍了相关技术的发展现状以及现有的基于传统关系数据库、分布式系统、Hadoop平台的本体存储系统。②总结现有的本体存储模型的优缺点,提出了一种基于HBase(Hadoop Database)数据库的本体存储模型,将OWL本体描述数据按照类和属性以键值对的形式分开存储在两张HTable表中,并用列族对类和属性进行划分,RDF实例数据冗余存储在SPO_C、POS_C、OSP_C三张HTable表的行健中,充分利用HBase行键的字典索引对RDF数据进行索引存储。③基于本文提出的本体存储模型,提出了三元组匹配算法、三元组模式匹配算法、基本图模式查询算法、扩展的语义查询算法以及基于Map Reduce的查询连接算法,其中利用队列结构来对查询进行语义扩充,预防语义扩充死循环的发生,支持子类、等价类、子属性、等价属性、逆属性、对称属性六种语义。④在分布式集群环境下利用本文设计的存储模型和查询算法在不同的LUBM(Lehigh University Benchmark,里海大学基准)数据集上进行性能测试,包括数据加载性能测试和数据查询性能测试,通过与传统关系数据库进行数据加载对比试验、在不同数据集上的6种LUBM查询对比试验、与不同存储查询系统的综合实验和对比分析,验证了本文提出的基于No SQL的本体存储与查询策略的优越性。