支持查询的大规模RDF数据压缩方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yanjinghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网技术的飞速发展,RDF数据迅速增长,这给RDF数据的存储与传输带来了巨大的挑战。现存的通用压缩技术和RDF专用压缩技术可以在一定程度上解决该问题,但大规模数据中连接主语的谓词冗余仍未得到很好的解决,此外针对压缩数据的查询仍然存在数据压缩比率和数据查询效率相互制约的问题,二者性能的同时提升仍需进一步研究。本文针对连接主语的谓词冗余这种可被优化的数据冗余,提出基于差分编码的RDF分组压缩算法(Delta Encoding for RDF Grouping Compression,DGC),将RDF数据根据连接宾语的谓词组合进行分组用于进一步减少谓词冗余,将差分编码技术引入分组后的主语序列用于优化序列数据的存储空间。此外,本文在DGC压缩结构上实现了数据查询算法,满足在DGC原生结构下的对压缩数据的查询需求。为了提高查询性能,本文将小波树和倒排索引引入查询算法以便快速缩小查询范围,避免全量数据检索,在很大程度上提升了谓词优先和主语优先查询模式的查询性能。本文的主要贡献是:(1)提出一种冗余程度更低的RDF数据分组存储结构,进一步降低了谓词冗余,同时引入的差分编码优化了主语序列的存储空间;(2)实现基于DGC分组结构的数据查询算法,满足在资源受限的场景中对数据进行查询管理的需求;(3)提出针对DGC查询算法的加速查询策略,通过引入小波树和倒排索引在增加可接受空间代价的基础上加速谓词优先和主语优先查询模式的查询效率。实验表明,DGC算法在不同结构化程度的数据集上与现有方法相比取得了显著的提升。基于DGC的查询算法在不同查询模式上也表现出比当前查询算法更好的性能。
其他文献
决策贯穿于个体的整个生命周期,是人脑的重要认知功能,总体可以分为刺激信息编码、运动行为选择和执行以及反馈学习三个过程。尽管事件相关电位(Event-Related Potentials,ERP),如预备电位(Readiness Potentials,RP)等为观察脑决策功能活动提供了观测的窗口,但决策功能是多个脑区共同协作完成,现有手段难以实现从神经元到神经网络到脑系统多个层次的功能和结构研究。为
随着中国社会的变革、经济的快速发展,人口老龄化的程度也在加剧,但与此同时4-2-1家庭模式逐渐形成,传统家庭养老功能日益衰弱,老年人需求的增加和支持的减弱的矛盾凸显,养老问题成为了亟待解决的现实性问题,如何满足老年人各方面的养老需求是解决老年人养老问题的关键。随着城市社会化养老模式的逐渐探索,重视城市居家老年人的养老需求满足程度,是提高城市居家老年人生活满意度的要求,同时也可以发现多元化目前社会化
在电梯检测领域中,电梯平衡系数检测始终是最难实施的检测项目,原因是其中对限速器、安全钳进行一系列试验时,需要涉及到最高超过电梯额定载重1.25倍的大载荷砝码,而这些超过
2019年,作为S集团“十三五”发展临近收官之年,集团努力通过信息化建设实现数字化赋能产业,促进“两化融合”,以满足集团所属各级公司基础信息服务、各类业务应用等需求,提升核心竞争力,推动高质量发展,支撑S集团“小总部、大产业”的战略转型目标。在此背景下,S集团顺势开展云平台建设项目,作为S集团信息化建设的“1号工程”,寄希望打开S集团整体的信息化转型之路。该项目投资规模大,参与建设单位多,系统架构
含氮杂环化合物是一类数目庞大的有机化合物,它们结构多样,广泛存在于具有生物活性的天然产物、药物分子以及有机功能材料中,如维生素、生物碱、色素以及香料等。其中,N-氧化
近年来,随着信息化的快速发展,用户对计算资源的需求越来越高,传统计算机在计算能力、存储能力以及便利性等方面在一定程度上制约了现代化办公和应用。云计算为用户提供了无限计算和存储能力,用户可通过网络随时随地使用,更灵活的满足用户需求。拥有私有云的企业或研究机构,可借助公有云实现对计算资源的灵活扩展,应对突发的请求溢出和负载不均衡的情况。所以,混合云成为企业或研究机构部署云计算应用的首选。因此,如何将混
生长停滞和DNA损伤诱导45α(GADD45α)是应激诱导蛋白,在细胞存活、死亡、染色质组装、基因组稳定性和DNA损伤修复中具有重要的作用,GADD45α表达的蛋白通过MTK1/MEKK4激酶介
随着房产经济的发展,房价飞速上涨,住房成为大多数工薪阶层和低收入群体的一大困难,尤其是低收入老年人。想扎根大城市,申请公租房成为大多数没有住房且无购房能力老年人的选
聚乳酸(PLA)是目前环境友好高分子材料中最为重要的可生物降解聚合物之一,具有良好可生物降解性和生物相容性。然而,由于其较慢的结晶速率、较差的耐热性和较差抗紫外线性能
本文致力于研究带有时滞的分数阶微分不等式,并将其应用到分数阶时滞系统的稳定性理论的研究当中。本文分为以下四个部分:第一部分研究了线性常系数的分数阶时滞微分不等式,