基于键值存储的分布式时序相似性搜索方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liff09020625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传感器的普及和感知技术的不断发展,越来越多的时序数据在连续不断地产生。这些时序数据中蕴含着丰富的信息,能够用于多种场景,例如预测城市中未来空气质量变化、工业监控数据自动风险排查、个性化商品推荐服务以及挖掘潜藏的自然规律等。其中时序相似性搜索作为时序分析的基本算子之一,用于支持以上应用,且这些应用普遍对其拥有较高的时效性要求。然而大数据时代的来临使得时序数据具有基数大、维度高且不断产生的特点,想要对海量时序数据进行有效存储和高效相似搜索非常困难,传统方案并不能很好地应对上述三大挑战。此外,键值数据库近年来因其海量的数据存储和高效的键值索引功能,受到了广泛的关注,但目前并没有基于键值数据库的时序相似性搜索研究。为更加便捷且高效地对海量时序数据进行存储管理和相似查询,本文利用键值数据库的海量存储和高效索引功能,构建了一套完整的从时序数据存储到时序相似搜索的框架方案,称为KV-Search。KV-Search具有查询效率高、框架扩展性强和应用灵活性好等特点,较好解决了大数据背景下时序数据基数大、维度高和不断产生的三大挑战。本文主要研究内容和创新点总结如下:(1)基于键值数据库设计了一种针对时序数据的分块键值存储策略,解决了时序数据“如何存”的问题。具体可分为如下两点:1)设计了一种基于切分的时序表示方式。本文对时序进行分块切分,将其划分为若干时间分块,并提出了块和块序列等概念进行编码,同时对编码后的时序之间的距离进行了定义,有效解决了时序数据维度高且不断产生的难点。2)设计了一种基于分块表示的键值存储策略。基于上述分块表示,本文通过对每个时间分块的键值对进行精心设计,将数据存入数据库,可管理海量数据并同时对其进行高效索引查询,解决了时序数据如何存的问题。(2)基于上述时序分块键值存储策略设计了一种分布式时序相似搜索算法,解决了时序数据“如何查”的问题。具体可分为如下两点:1)设计了两种查询时的剪枝操作,实现了无效数据的高效过滤。基于上述时序的分块键值存储策略,为尽量避免无效数据的扫描以加速查询,本文分别设计了极值剪枝和分块剪枝,不仅能够直接忽略指定扫描范围外的数据,并且能够以更小的时间复杂度代价判断某条数据是否在最终结果集中,有效解决了时序数据基数大的难点。2)设计了一种基于时序分块键值存储的分布式相似搜索算法。基于上述存储和剪枝策略,本文设计并实现了一套时序相似查询算法,可快速得到结果,并通过分布式实现,能够应对更大规模的数据查询需求,解决了时序数据如何查的问题。(3)基于真实数据集进行了大量实验,并基于京东城市时空数据引擎JUST实现KV-Search系统。具体可分为如下两点:1)在大规模真实数据集上对KV-Search的剪枝效率、查询性能和扩展性进行了全方位的实验和分析讨论,充分证明了所提算法的高效性和灵活性,同时也开源了所有实现和实验代码。2)基于现有平台对KVSearch进行了系统实现,用户仅输入一句简单的SQL语句便可实现上述复杂的时序相似搜索算法,极大简化了用户的查询流程,提升了用户的使用体验。
其他文献
智能终端设备的普及给人们的日常生活带来了极大的便利,但大量敏感信息被存储在本地,对设备的数据安全与隐私保护提出了挑战。目前智能终端设备多使用指纹、口令等一次认证机制,无法在设备使用期间验证身份。持续认证方法能够在不中断设备使用的情况下,定期验证用户身份,将其作为传统认证机制的辅助认证方法,可以有效应对频繁解锁需求,提高设备在用户使用期间的安全性。步行特征和心跳特征均满足普遍性、特异性、持久性与可采
学位
论文课题来源于模拟前端电容/电压转换电路工程项目,具体要求为研究并设计一款稳定的低温度系数带隙基准源。电容/电压转换电路将电容信号转换为电压信号,广泛应用于陀螺仪、加速度计等电容式传感器电路系统中。基准源电路作为基准模块单元,为电容/电压转换电路提供稳定的共模电压和偏置电流,在整个电路系统中发挥着重要作用。在本论文课题中,基准源的设计工作包括电路前端设计、版图绘制、寄生参数提取、仿真验证、芯片测试
学位
氮化镓基材料由于自发极化和压电极化使得在未掺杂的异质结中能形成高密度高迁移率的二维电子气(2DEG),2DEG是影响GaN基高电子迁移率晶体管(HEMT)器件性能的关键因素。然而它们的性能受到两个相互矛盾的因素的限制,即2DEG浓度和栅极可控性。由于栅极长度和器件的频率特性成反比,一般通过减薄(Al,Ga)N(AlGaN)势垒层厚度以减小栅极到异质结界面的距离,以保持良好的栅极可控性。但另一方面减
学位
近年来,随着无人驾驶技术、人工智能、传感和机器视觉等技术的迅速发展,类似于3D游戏、移动增强现实(Mobile Augmented Reality,MAR)等新型车载应用层次不穷,该类应用极大地提升用户驾驶体验和驾驶安全,然而它们通常是计算密集和时延敏感的,因此它们的出现对无人驾驶车辆的资源提出了更高要求。考虑到单辆无人驾驶车辆资源有限,若全部本地化处理将会大大加重无人驾驶车辆的资源负担,可能导致
学位
学位
研究背景痣样基底细胞癌综合征(Nevoid basal cell carcinoma syndrome,NBCCS),又称Gorlin-Goltz综合征(Gorlin-Goltz syndrome,GGS)、多发性基底细胞癌综合症Basal cell nevus syndrome(BCNS),是一种常染色体显性遗传病,具有高外显率和变异性表达。目前已有文献报道的临床表现达百种以上,以多发性基底细胞
学位
虽然有机-无机杂化钙钛矿太阳能电池具有较高的光电转换效率,但其低结构稳定性和铅的毒性会严重限制它的商业应用。因而,探究无毒高稳定性钙钛矿具有重要意义。相比于铅基钙钛矿,锡基钙钛矿不仅具有合适的能带、高载流子迁移率,而且还具有无毒特性等;同时在无机层之间插入具有疏水性质的有机分子链可以提高材料的稳定性,使材料成为有机阳离子和无机物交替连接的低维钙钛矿结构。因此,本论文研究了一种具有有机二胺阳离子1,
学位
近年来,复杂网络系统可靠性已成为诸多实际网络与应用系统的研究热点。当前研究主要基于人工构建出的网络模型,在实际复杂系统中尚缺乏系统验证。本论文以实际交通流量网络与电子信息系统为研究对象,重点研究基于节点重要性识别的实际网络系统可靠性的问题定义、识别方法设计、算法实现与验证、得出结论。所研究的模型和方法具有很好的可扩展性与通用性。本文主要研究内容如下:1.提出了一种基于节点属性值重新计算的关键节点识
学位
嵌入式系统应用广泛,嵌入式软件规模和复杂度急剧上升,呈现出组件化、综合化的发展趋势。同时,物联网、工业控制、航空航天等领域对嵌入式软件的可靠性、安全性要求越来越高,如何提高嵌入式软件的安全性和可靠性成为长期被关注的关键问题。基于模型的系统工程(Model-Based Systems Engineering,MBSE)常用于开发大型嵌入式软件系统,以提高软件可靠性。其中常用的系统建模语言(Syste
学位
在人群聚集的场馆进行安全疏散需要应对许多挑战,如果引导不当,容易造成踩踏事件,造成重大人员伤亡。针对疏散中的人群动态变化,设计高效、合理的疏散策略引导行人有序疏散,能够有效降低风险,对人群安全管理具有重大意义。然而,人群疏散受多因素影响,充满不确定性,任何不可预见的突发事件都可能引起人群状态的不稳定,疏散策略应当能够应对环境和人群状态的变化,针对已发生的群体异常提供有效解决方案,防止进一步引发群体
学位