论文部分内容阅读
随着语义Web和Linked Data运动的发展,语义数据规模变得越来越庞大、涉及的领域也越来越宽广,并且有的数据集已经出现多个版本的演变,这就使得大规模语义数据的分析和存储面临着巨大的挑战。一方面,本体的规模增长和版本的更新需要一种简单有效的分析方法,帮助人们认识本体内部的变化情况,简化维护和管理本体的过程。另一方面,语义数据海量的增长使得传统的基于HDD的存储策略的读写速度难以满足人们的需求,需要更加有效的存储策略提升原有数据存储系统的读写速度,进而满足RDF数据的快速存放和高效查询。本文首先提出一种基于本体指标的本体版本演变分析方法。该方法使用一种图结构转化规则,将本体的描述与公理转化为一张有向图,利用这张图的结构描述已有的Ontology层和Class层指标,并设计Property层上的4个指标。而后抽象出分析本体版本演变规律的过程,提出一个本体版本演变分析算法,选用版本更新较为完整的OpenGALEN和OpenCyc本体作为数据集,对多个版本下的本体指标进行度量。同时,针对大规模RDF数据的存储提出了一种基于SSD和HDD的动态混合存储方案。在本方案中,首先分析系统中数据模型的生成和操作方式,将原有数据模型按照加载顺序分置在SSD和HDD之上,以支持数据的快速读写,而后采用改进的最近最少使用策略,结合数据模型原有的分片技术,周期性地扫描并将使用最少的数据模型置换出SSD,进而优化原有系统的I/O性能,最大限度的利用SSD和HDD的特性。通过分析和讨论实验结果,证明利用本体指标分析本体内部结构变化,能够发现本体指标变化所表现出的本体版本演变的规律,简化了人工观察分析本体的过程。同时,在同等硬件和数据集的情况下,本文提出的混合存储策略具有良好的数据加载和查询性能,相比传统的单独存放于HDD的数据存储策略性能提高约20%到25%。