分布式环境下大规模轨迹流伴随模式计算及优化

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:bascin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着定位技术的广泛使用,轨迹数据呈现爆炸式增长,并产生了以轨迹流形式收集的海量时空数据,如何从轨迹流中挖掘有用的信息是当前对时空数据研究的主要问题之一。从轨迹流中挖掘伴随模式是指在同一时间发现具有高度相似行为的群体,对于交通管理、推荐系统的实时应用至关重要。然而,现有的研究成果在实时数据响应方面存在效率不高的问题,难以满足现实应用的需求。本文针对轨迹流的伴随模式挖掘展开了深入的研究,主要研究成果如下:(1)在数据分区阶段提出了基于分布式部署方案的二阶段分区策略TSPartition(Two-Stage Partitioning),为分布式环境下轨迹流的伴随模式挖掘框架提供了更高效率的数据划分,保证节点间的分区平衡。TSPartition处理当前快照下的所有轨迹数据的分区问题,首先使用历史哈希,将轨迹数据分发到多个节点排序处理并生成新的哈希值,其次利用新的哈希值将数据均匀分区,将由单节点处理的排序操作交由多节点处理;与现有的普遍采用单节点扫描的数据分区策略相比,TSPartition具有更高的数据分区效率。通过实验表明,TSPartition提高了轨迹流数据分区的效率且保证了分布式聚类的负载均衡。(2)在分布式聚类阶段提出了融合瞬时移动方向的密度聚类算法ADBSCAN(Angle-DBSCAN)和聚类合并算法CM(Cluster Merging),为分布式轨迹流伴随模式挖掘框架提供了高质量的聚类结果,提高了分布式轨迹流挖掘框架对伴随模式的发现能力。ADBSCAN算法处理当前快照下所有轨迹数据的聚类问题,在同时考虑对象间的瞬时移动方向的前提下对当前快照下的所有轨迹点进行密度聚类,与现有的轨迹流伴随模式挖掘框架中普遍采用欧式距离的密度聚类算法相比,ADBSCAN算法为轨迹流的伴随模式提供更高质量的簇。CM算法以ADBSCAN算法的输出作为输入,通过遍历所有簇取并集的方式,解决了由于分布式聚类导致的边界簇被分割的问题,弥补了由于分布式聚类导致的聚类结果偏差。通过实验表明,ADBSCAN和CM的结合提高了轨迹流伴随的发现能力。(3)最后提出了分布式并行伴随模式匹配算法PCPM(Parallel Companion Pattern Matching),并设计了分布式轨迹流伴随模式挖掘框架DCPFS(Distributed Companion Patterns Mining Framework for Streaming Trajectories)。结合分布式流计算引擎Flink,通过分布式并行方案提高伴随模式发现效率。PCPM算法将聚类的簇分发,并将候选伴随广播到多个节点,各节点间并行执行匹配操作,与现有的采用单节点进行模式匹配的算法相比,PCPM算法减少了模式匹配阶段的时间消耗。DCPFS框架基于TSPartition、ADBSCAN、CM和PCPM四个算法,充分利用了Flink在流处理方面的优势,在轨迹流的伴随模式挖掘方面表现出比现有的框架更好的性能。通过实验表明,与单节点轨迹流伴随模式挖掘框架相比,DCPFS框架将轨迹流伴随模式挖掘时间消耗降低了60%~70%,与现有的分布式框架相比,时间消耗降低了20%~30%。
其他文献
随着信息技术的高速发展,如何快速有效的提升公民的身份信息安全逐渐成为研究热点。传统身份识别技术在实际使用过程中存在着诸多不便。例如钥匙、密码等,都会有遗忘或丢失的风险,难以满足当代人们对更高安全性、可靠性以及便利性的需求。利用人体特征进行识别逐渐成为鉴别身份的热点,例如人脸识别、指纹识别等。手掌静脉识别技术是人体生物特征识别技术中的一种,因其具有活体认证、伪造难度大、使用便捷等优点,在国内外已经成
学位
混凝土全容罐是储存液化天然气的重要设备之一。随着混凝土全容罐朝着大型化不断发展,其设计和建造难度也不断增大。混凝土全容罐穹顶结构的设计和建造技术是混凝土全容罐工程建设中的重点难点。穹顶结构具有自重大、跨度大等特点。研究穹顶结构的安全性对于保障混凝土全容罐安全、促进天然气产业发展具有重要的现实意义。本文以一座容积16万立方米的大型液化天然气混凝土全容罐的穹顶结构为研究对象,对其火灾工况和施工过程进行
学位
在黑夜,阴天等亮度不足的环境下,容易得到曝光不足的低照度图像,这些低照度图像存在整体或局部亮度低、细节缺失等问题,严重影响图像质量,给人的视觉感受和后续的视觉任务都带来不利的影响。低照度增强技术目的主要是增强图像整体亮度,恢复暗部的细节,从而将低照度图像恢复到正常曝光图像。为了处理复杂光照下的低照度图像,本文基于卷积神经网络开展研究,从图像的增强模型和网络结构两方面对低照度图像增强任务进行了研究,
学位
随着我国经济的快速发展,人民生活水平不断得到改善,人们出行时使用的交通工具也呈现了多元化的趋势。越来越多的机动车和非机动车在出行中扮演者重要的角色,随之而来的拥堵也越来越频繁的出现在人们的日常生活中。在城市生活中,电动摩托车的乱停乱放,共享单车的乱停乱放等都会给道路交通带来拥堵的风险。现阶段处理非机动车违停的方法主要是通过人工检查,通过投入大量交通警察和城市管理人员,逐个街道检查并找到违停的现象,
学位
由于海洋战略被提出,智慧海洋成为新的焦点,使用水下机器人代替真人进行水下作业是不可避免的趋势。在参与水下主从式高动态范围三维全景感知系统与探测设备项目的研发中发现,水下设备贵、调试难以及环境不确定性等问题,导致采用水下机器人在真实水域的算法验证实验与海洋设备教育培训的开展成为有待解决的难题。针对设备贵、实验难并存在危险等问题,本文设计了虚拟仿真教育系统用于算法验证以及大学生人工智能、水下机器相关课
学位
目的 了解近10年来我国医疗数据安全领域的发展及研究热点,为后续开展相关研究提供参考。方法 在中国知网(CNKI)中的期刊数据库中,以“医疗数据安全”等检索词检索的相关文献作为数据来源,检索时间限定为2012年1月1日-2021年12月31日,共得到758篇文献数据,经过剔除重复文献、会议论文、报纸等与主题相关性较弱的文献后,最终得到682篇有效文献。运用CiteSpace软件进行文献计量学分析。
期刊
风电清洁安全无污染,是重要的可再生能源。然而,受地理环境因素影响,风能密度高的地区在冬季极易发生风机叶片结冰故障,破坏风机原有的力学平衡,加速部件老化损坏。因此,采用数据驱动的方式建立模型对结冰故障进行预测,在结冰故障发生前发出预警并采取措施,对提高风场运营效率具有重要的现实意义。然而目前的研究方法往往只关注数据中的时序特征,忽略了数据之间存在的空间关系,难以充分挖掘数据中的多尺度特征,导致目前模
学位
知识图谱的实体对齐有助于知识图谱的创建和扩充工作,进而推进知识图谱的应用发展。依赖于知识图谱专家手动注释实体对齐的方法不仅费时费力而且存在着一定的误差。在深度学习快速发展的当前阶段,深度学习依靠优异的网络结构,以及较好的学习能力,在知识图谱上有着不错的表现效果。对此,本文基于深度学习方法对实体对齐的任务进行研究工作。本文的主要工作及贡献如下:(1)针对图卷积神经网络的实体对齐方法GCN-Align
学位
风机关键部件的故障检测作为风电场智能化管理的重要环节,能够提高风电场的生产效率、降低运营成本,是当前科研领域的一个热点问题,受到各国研究者的广泛关注,并提出了各种风机故障检测方法。研究发现目前的风机故障检测方法仍存在以下问题:(1)风机数据集类别不平衡导致风机故障检测模型训练时偏向大类别样本,使模型效果不理想;(2)现有风机故障检测模型特征学习能力单一,不能充分利用多层级的特征信息,导致模型性能较
学位
目的 探讨集采前后门诊降压药使用情况,分析药品集采在医院的应用效果。方法 利用信息系统,收集药品集采前后门诊降压药使用信息,包括药品名称、规格、厂家、单价和销量,计算日均费用、销售总金额,对比观察药品集采前后门诊降压药的使用变化及幅度。结果 集采前,门诊药房共有降压药物22个品规,集采后停用8个品规,新增13个品规,目前共有27个品规,其中集采中选品规9个。集采后,降压药整体日均费用平均降幅为28
期刊