RDF数据集双向映射数据结构的设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:DownLoad0005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展、大数据的普及,人类所掌握的数据量也日益增长,而数据结构作为计算机存储、组织数据的方式,也随着新时代的发展不断推陈出新,其中双向映射数据结构作为一类重要的数据结构,被广泛用于一类双向映射数据集的存储、检索应用场景,如数据重映射优化、DNS(Domain Name System)等应用场景。资源描述框架(RDF)作为新时代的数据模型,通常用于描述Web资源的特性、资源之间的关系,已经被越来越多的公共知识库、网页存储内容采用。在一类针对RDF数据集的高性能查询引擎Wukong[1-3]、计算框架Power Graph[4]上,其普遍采用了数据重映射优化对其RDF数据集的存储、计算进行了优化,而数据重映射优化则需通过双向映射数据结构对其源数据和重映射数据的双向映射关系进行存储,而双向映射数据结构的存储开销、查询、插入等性能的优劣则成为其存储成本、用户体验的主要决定因素。因此,对该类针对RDF数据集的相关应用中的双向映射数据结构进行研究是非常有必要的。本文基于RDF数据集中大量存在的公共字符串序列、双向映射中数据将被重复存储于正向映射与反向映射存储中的两大发现,提出了双向映射数据结构Bi-trie,其通过爆炸式字典树对正向映射键值对进行存储,通过字典树的压缩公共前缀的存储优势,优化其正向映射存储开销,同时在反向映射存储上,Bi-trie对正向映射的爆炸式字典树的字符串数据进行复用,减少反向映射存储中的重复字符串存储开销,大大优化了双向映射数据结构的存储开销。本文的主要贡献如下:第一,详细分析了RDF数据集的特点、现有双向映射数据结构存在的问题,提出了基于爆炸式字典树数据结构的双向映射数据集存储方案,通过对数据进行复用,大幅减少了双向映射数据集的存储开销。第二,设计并实现了基于爆炸式字典树的双向映射数据结构Bi-trie,并通过多项设计提升Bi-trie的存储利用率,如正向映射与反向映射存储的复用、爆炸式字典树的字典树节点的子节点存储、散列节点的散列冲突解决策略、内存页管理模块等。第三,本文对Bi-trie的插入、查询过程提出了三项优化:在插入性能方面,RDF数据集中大量的公共字符串序列会对爆炸式字典树的插入过程中产生无效的冗余爆炸操作;在正向映射键值对查询方面,爆炸式字典树以字符为查询匹配单位的查询方式较低效;在反向映射键值对查询方面,由于反向映射存储复用了正向映射爆炸式字典树中的数据,它通过爆炸式字典树获取其完整字符串的过程较低效。对此,本文提出了避免冗余爆炸、快速通道、前缀聚集优化,提升了Bi-trie的各项性能。
其他文献
软件缺陷分析是软件产品与软件过程的评估改进的重要技术手段之一,已成为学术界和工业界的研究热点。本文以软件过程改进为目标,研究使用文本挖掘的方法并结合统计分析进行软件缺陷分析,通过对软件缺陷描述的文本检索、文本聚类和文本摘要等,挖掘、分析软件缺陷的分布、聚集和重复出现等信息。然而,软件缺陷描述一般都存在冗余信息多、句法不规范的问题,并且噪声词、同义词、同类词的分布也非常广泛;与此同时,应用软件的缺陷
在工业物联网环境中部署大量边缘设备以构建边缘网络架构已成为一种趋势。越来越多的工厂选择这种方法来提高生产效率。边缘网络的优点是通过利用雾节点的快速响应能力来提高实时系统的抗干扰能力,降低系统服务总体延迟。但是雾节点的有限资源不足以配置所有传感器节点必需的服务。雾节点的自适应配置必须跟踪工业设备需求的变化,最大程度地减少延迟,并在满足约束条件的同时确保系统稳定性。本文研究了在恶劣和复杂的网络条件下,
把物体辐射的红外线特征转换为电信号再以可见光图像的形式展现出来的热图像就是红外图像。红外线相比于可见光具有穿透力强,稳定性好,测距远,可以夜间成像等特点,所以红外图像应用广泛,红外目标的检测跟踪问题备受关注。本研究中的红外目标总体来说有三大特点。第一个特点是目标所处的背景比较复杂。云层、海杂波、戈壁滩、山脉等复杂背景中的杂波、干扰给目标检测带来很大的困难。第二个特点是多数目标面积相对较小,即使面积
传统的时频分析方法是处理非平稳信号的有力工具,它可以同时描述信号的时域和频域特征,由于Heisenberg测不准原理影响,短时傅里叶变换和小波变换的时频表示能量聚集性较差,又因交叉项干扰,使Wigner-Ville分布难以处理多分量信号,为此本文主要研究基于短时傅里叶变换的一类时频后处理方法,即同步变换方法。同步变换通过估计信号的瞬时频率或群延迟信息,将短时傅里叶变换的时频系数进行同步压缩或同步提
静态随机存取存储器(static random access memory,SRAM)作为高速缓存(cache),是芯片上不可或缺的组件。随着芯片技术的不断发展,SRAM的容量不断增加,其占据的片上面积不断增多。另一方面,随着半导体器件的特征尺寸不断减小,工艺扰动导致SRAM的良率下降,严重降低芯片的可靠性。因此提高SRAM的密度和良率对降低芯片的面积和提高芯片的可靠性至关重要。近年来,碳纳米场效
世界上有数百万的聋哑人,他们不能像常人一样通过语言进行沟通,而是通过手语进行沟通交流,这给生活带来了诸多不便。因此,开发一套可以让常人理解他们的手语实时识别系统是非常有意义且有价值的。在本文中,我们研究了一套中国手语实时识别系统,该系统可以识别聋哑人的中国手语,并实时地通过文字与语音的形式将识别结果输出给用户。首先,我们创建一个中国手语数据集。依照国家通用手语常用词汇表,使用RGB摄像头采集了日常
目前,精益生产是最热门的生产方法之一,许多飞机制造商在其生产系统中都采用了精益原理。与此同时,互联网技术也在航空业中广泛应用。本文提出了将精益和物联网这两种方法集成以用于提高航空企业的竞争力。在将此概念应用于企业实际生产前,有必要对过程进行模拟并分析结果。本文将使用离散事件仿真来验证这些技术的效果。由于ARENA软件非常适合此研究,因此本文应用其实现建模。最后,本文得出的结论是,应该以集成的方式使
随着智能物联网时代的到来,大量基于目标跟踪或定位的服务日益增多,尤其在一些特定的室内场景下,例如监狱看守、养老院老人监护、自动化仓库设备等封闭的室内环境,众多服务需求都依赖于精确的目标跟踪与定位。现有室内定位方案即使定位精度已经可以达到不错的分米级,但是在一些复杂场景中,其精度仍然不高。而近几年来,视觉目标跟踪发展迅速,图像跟踪精度高达像素级别,但可靠性较差。本文的研究工作即同时结合了视觉目标跟踪
在企业的日常经营过程中,运用全面预算管理能够有效地改善企业内部控制管理,扩大企业的经济效益。因此,作为一种科学完整的管理体系,全面预算管理在企业实践中已经得到广泛的认可。但是,由于全面预算管理在我国企业的实践时间还比较短,目前仍然存在比较多的困境,亟须加以完善。本文介绍了企业实施全面预算管理的现实意义,分析了全面预算管理在实践过程中面临的主要问题,并据此提出具有针对性的对策建议,以期促进企业战略目
随着制造业向数字化、智能化的转型升级,企业间的竞争日趋激烈。在这样的背景下,在产品生产的早期阶段进行快速准确的报价是必不可少的。在制造业转型升级的过程中,CAD模型已经成为了贯穿整个生产周期的信息载体,这些蕴含了丰富信息的CAD模型成为了可以利用的珍贵资源。针对这一背景,本文设计了一种以零件的中性格式(.stp)B-rep模型文件作为输入的报价系统,并利用python OCC作为几何内核完成了系统