基于EMD的数据流相似性连接的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户：wyxxzh

【摘要】

：

近年来,随着共享视频、社交网络等新兴产品的崛起,网络中的数据规模也呈爆炸式增长。这些数据具有结构复杂、数量巨大等特点,因此从海量数据中提取关键数据难度变得越来越大,

【作者】

：

张佳振

【出处】

：

广西大学

【发表日期】

：

2017年期

【关键词】

：

数据流滑动窗口 EMD 相似性连接 EMD-DSJoin 降载

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着共享视频、社交网络等新兴产品的崛起,网络中的数据规模也呈爆炸式增长。这些数据具有结构复杂、数量巨大等特点,因此从海量数据中提取关键数据难度变得越来越大,尤其是在海量数据中做相似性连接显得愈发困难。所谓相似性连接,是指从一个或两个数据源中查找所有的相似数据对,并返回结果。相似性搜索在概率数据相关的许多实际应用中扮演着十分重要的作用,如无线传感器网络、股票分析以及基于多个视频源的对象跟踪。EMD距离(Earth Mover’s Distance)在计算机视觉领域返回的相似性概率数据与人类对相似性的判断更一致。然而,EMD立方级的复杂度阻碍了其相关应用的普及,特别是在分析快速到达数据的数据流方面,同时源源不断到达的数据可能会造成系统缓存不足、系统过载导致性能急剧下降等问题。为此,本文尝试采用EMD的方法对滑动窗口语义的数据流进行相似性连接处理,主要开展了以下方面的研究工作:(1)针对EMD距离函数优化问题中存在的复杂度高、计算时间长,数据流数据的无限性等问题,提出一种基于B+森林索引框架的EMD相似性算法(称为EMD-DSJoin)。算法的设计思想是:利用线性规划的原始对偶理论把到达的直方图概率数据转换为EMD下界距离,然后基于EMD的下界距离构建一组B+森林索引,利用B+森林有效地对不需要进行EMD计算的直方图概率数据剪枝,从而加快基于EMD的相似性连接效率;最后利用滑动窗口解决有限缓存保存延迟数据问题。算法具体的实现方法为:(a)通过构建B+树森林和更新可行解,提高过滤效果,过滤掉完全相关或完全不相关的数据;通过构建子索引,利用丢弃成块的子索引完成数据的丢弃,减少丢弃数据的维护代价。(b)优化B+树森林存档周期,根据滑动窗口值和容量因子的变化,使存档周期P值达到自适应变化的效果,从而让B+树森林索引机制更高效运行。通过用真实环境的数据集进行的验证实验和对比分析结果表明,EMD-DSJoin算法的CPU时间、EMD求精次数都有一定程度的减少,处理速度比已有对比算法快了 35%左右,说明EMD-DSJoin算法使数据剪枝更为高效,为处理乱序数据提供更为有效的处理策略。(2)数据流的数据到达并不是匀速的,当数据在某时间段集中到达时,由于系统资源有限,数据流高爆发时容易造成系统过载,从而导致连接性能大幅度下降。为了解决这一问题,本文提出了基于EMD-DSJoin算法的降载策略。该策略充分考虑了数据流上数据具有的时间关联性,在系统过载时过滤掉数据中包含的冗余数据,有效减少了相似性连接的次数,同时尽可能保证相似性连接结果的完整性。实验结果表明,使用降载策略的EMD-DSJoin 算法可以根据丢弃阈值设定的不同,不同程度地减少EMD求精次数和CPU时间,验证了降载策略的可行性和有效性。本文首次采用基于滑动窗口语义的EMD处理数据流相似性连接技术,提出了一系列策略来提高EMD-DSJoin在数据流上处理乱序延迟直方图概率数据的能力,较好地解决了数据流高爆发时系统过载问题。论文的研究成果为数据流上的数据相似性连接提供了提供新的思路和技术手段。

其他文献

改良hela细胞冻存与复苏方法的实验研究

目的：建立一种改良的hela细胞冻存和复苏的方法。方法：取生长状态良好的HELA细胞分别进行传统和改良方法冻存，于冻存后1年分别行传统和改良的复苏方法。用MTY法测细胞生长曲线，应

期刊

改良兔HELA冻存复苏两因素分析

胆甾醚类衍生物合成方法的改进

研究了胆甾醚类衍生物新的合成方法：以密闭反应釜合成法取代传统加热回流的方法。实验表明可降低原料叠氮乙醇的用量节约原料,而且其副反应少,产率较高（由60%提高到87%以上）。因

期刊

胆固醇薯蓣皂苷元皂苷绿色合成原子经济性cholesterol diosgenin saponin green synthesis atomic

如何在高中语文教学中渗透自然教育

自然教育与传统的教育观念不同,其核心内涵是尊重自然和学生的天性,顺应学生的天性去发展,以学生为中心。而这一内涵,恰恰是当前教育领域所倡导的素质教育改革观念。因此,本

期刊

高中语文传统教育素质教育

构建小学语文高效课堂的策略

课标的推进告诉人们一个讯息,这个讯息是几千年中国教育的根本,以人为本,因材施教,以学生为主体是新课标的主要内容。做好高效课堂,让学生成为课堂的主体,一反传统只输送不回

期刊

小学语文高效课堂因材施教

A公司设备管理问题研究

企业的设备管理工作是当今社会各界普遍重视的问题。设备管理工作是现代化企业管理的重要组成部分,也是决定企业生产能力和应变能力的关键所在。从理论和实践角度研究设备管

学位

设备管理设备运行维修策略设备点检

微乳液萃取钴的研究

采用油酸钠-正戊醇-正庚烷-水组成的微乳液体系对水相中的Co2+进行萃取研究,考察了微乳液中油酸钠的浓度、料液与微乳液的体积比(R)、温度、接触时间等参数对萃取率的影响.实

期刊

油酸钠微乳液萃取钴sodium oleatemicroemulsionextractioncobalt

敦煌遗书缀残中的相关残片检索技术研究及系统实现

敦煌遗书是指敦煌莫高窟中出土的一批具有重要研究价值的古代文籍。现今敦煌遗书由于出土时代对文物不重视等各类原因,散布在世界各地,不便于学者们的研究工作。2012年开始的

学位

敦煌遗书缀残特征检测图像检索

导致蛋鸡产蛋率低主要原因分析及其关键应对措施

在蛋鸡养殖生产中,一些蛋鸡养殖场往往会遇到蛋鸡产蛋率低现象,这严重影响到蛋鸡养殖经济效益充分发挥。而一些有经验的蛋鸡养殖场则是针对蛋鸡产蛋率低具体表现,分析其主要

期刊

蛋鸡产蛋率低主要原因关键应对措施

儿童肺炎支原体肺炎合并肺不张的临床观察

目的探讨儿童肺炎支原体肺炎合并肺不张的临床治疗。方法将冷水江市人民医院于2008年1月到2010年7月间收治的60例儿童肺炎支原体肺炎合并肺不张患儿随机分为观察组和对照组,

期刊

支原体肺炎肺不张阿奇霉素红霉素Mycoplasma Pneumonia atelectasis Azithromycin Erythromycin

浅析宁夏公路桥梁养护管理存在的问题及改进措施

分析了当前宁夏公路桥梁养护管理存在的问题,提出了加强公路桥梁养护管理的改进措施及安全运行建议。

期刊

公路桥梁养护管理问题及措施

基于EMD的数据流相似性连接的研究

与本文相关的学术论文