【摘 要】
:
伴随互联网技术及其相关应用的快速发展,信息的多样性和数据量级均较传统企业级数据有显著提升。我们可以在生活的方方面面体验到这些“大数据”,如网上查询海量资料、网上购
论文部分内容阅读
伴随互联网技术及其相关应用的快速发展,信息的多样性和数据量级均较传统企业级数据有显著提升。我们可以在生活的方方面面体验到这些“大数据”,如网上查询海量资料、网上购物、社交网络上的即时分享、企业的内部信息管理查询等。随着这类数据爆炸式增长和查询访问需求愈加复杂,数据库管理系统所面临的挑战也与日俱增,传统行存储技术已不能满足面向OLAP的各种查询需求。与此同时,我们也看到这些数据的更新需求与早些年的数据库OLTP应用存在显著差异。不同于OLTP,“大数据”下的更新对一致性要求有所放宽,且在很多应用场景中允许一定的更新丢失,这使得大量基于元组事务的更新方法能够得以实用。而数据类型上,“大数据”更多强调的是半结构化甚至无结构数据,这些势必将对已有基于关系模型的数据库访问技术提出新的挑战。在分析负载显著增加和数据模式更加复杂的应用背景下,列存储数据组织方法和嵌套模式管理技术日益得到重视。列存储基于列式数据存储,在执行复杂查询时能够更加有效地读取查询涉及的列组,且能够更好地运用各种压缩技术节省存储成本,因而可以更为有效地提升OLAP(联机分析处理)的效率。在此基础上,嵌套模式则进一步为数据的柔性表达提供了建模支撑。如何基于列存储为嵌套模式下的半结构化数据提供高效的查询分析支持和有效的更新处理支撑是近年来业界和学术界的关注焦点、具有重大的研究和应用价值。本研究以列存组织和嵌套建模为两大核心技术手段,重点对半结构化数据的存储、查询和更新三个核心内容进行优化技术研究。在数据组织方面,研究借鉴Trevni的底部存储结构,形成能够支撑“选择下推’”的通用嵌套列存组织结构。面向更新需求,精心设计了 B+树索引以支持嵌套模式下的元组级事务处理。在查询优化方面,提出并实现了基于“选择下推”的数据扫描算法集,通过在扫描时使用bitset轻量级结构来减少不必要的数据读取和反序列化。研究分别面向集中式和MapReduce两种环境对优化扫描算法给予实现,通过“any”和“all”两种查询语义在不同层级上进行负载传递,以期将所提算法扩展到通用查询模式中。实验验证分别在单节点和分布式环境下进行,实验数据包含十亿级联关系数据和数千万半结构化数据。试验结果表明所给出的存储架构在“选择下推”执行模式下较已有同类方法有显著提升。所提方法在处理选择率较低的多选择条件时,执行效率较目前广为采用的存储平台高出一个数量级。
其他文献
天然岩石并非完整致密的材料,其中不可避免地会包含许多初始空隙;另外,在达到屈服强度之后,如果应力继续增大,岩石会损伤破坏。这些原因使得岩石的变形性质十分复杂,应力-应
随着人们对环保意识的增强,各国都制定了严格的环境法规来限制汽油和柴油中的硫的含量。因此,开展燃料油脱硫技术的研究己成为当务之急。与其他脱硫工艺相比,氧化脱硫具有反
近年来,随着中外文化交流的不断加深,汉英交传在中国文化走出去的进程中扮演着日益重要的角色。译员在进行汉英交传时经常会遇到充分体现汉语语言特色的流水句。由于流水句句式复杂、变化多端,其英译便成为交传中的一大难点及重点,受到口译人员及研究者的广泛关注。本文是一篇反思型的模拟汉英交替传译实践报告,所选语料为金一南在国防大学的演讲《我们的时代,我们的奋斗》。本次翻译实践表明,汉语流水句的处理是本实践的最大
以过氧化氢为氧化剂对燃料油进行脱硫,由于氧化剂为水溶性,与含硫化合物所在的油相不能充分接触、传质阻力大、速率低,会导致脱硫效率低、氧化剂不能充分使用、脱硫成本增高
鄂尔多斯盆地中生界延长组是致密砂岩储层的典型代表,论文以鄂尔多斯盆地合水-白豹地区延长组长6、长8油层为研究对象,深入开展致密油储层特征及敏感性机理研究,对于该区域致
随着近些年来人们生活水平的不断增高,维持日常生活所需要的能源量也在逐年升高,单一的依靠火力发电这一种能源方式是不可取的。因此,近些年来,各国开始争相探索清洁的可持续能源,风能是其中最具有代表性的。但是,风力发电的波动性和不确定性常常会影响到电能质量、电网安全和电力系统稳定。这种情况下,开展风力发电功率预测研究,对于保证风电电网的更好发展和提高电能质量都具有重要意义。另一方面,随着近些年来大数据的兴
天津市道路桥梁规模庞大,是承担城市功能的重要载体;一旦发生突发事件,社会、经济影响重大。因此,本文从天津市公路桥梁设施空间分布特征与潜在危险源分布两方面入手,开展天
采用液相离子交换Cu、Ce离子成功制备了 Cu(Ⅰ)-Ce(Ⅳ)-Y吸附剂,并用X射线衍射(XRD)、N2吸附(BET)、电感藕合等离子体原子发射光谱分析(ICP-AES)、扫描电镜(SEM)、X射线光电
20世纪末高熵合金进入了材料研究者的视野,传统合金的单主元设计理念已不能满足社会发展需求。高熵合金具有的独特性能表现,解决了大多数传统金属材料的性能缺陷问题,是目前航空航天、军事武器装备、生物医疗设备、石油天然气钻探、汽车制造等应用材料的重要替代者,例如典型的面心立方结构(FCC)Co Cr Mn Fe Ni高熵合金。FCC结构Co Cr Mn Fe Ni高熵合金具有优异的力学延展性和耐腐蚀性能,
目的:干细胞因具有自我更新能力和多向分化潜能而在细胞治疗和组织再生中具有重要应用价值。然而干细胞内部组成并非均一,而是由不同表型及功能的亚群组成,这种异质性组成造成了干细胞实际应用中的疗效不稳定性。干细胞内部各亚群因较为单一的表型而表现出特异性分化优势,可能是更为理想的种子细胞。但是亚群单独应用意味着破坏原有的异质性微环境,而已有研究证实干细胞异质性对细胞和组织功能活动有重要意义,因此干细胞亚群分