基于Spark的轨迹频繁模式挖掘算法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:wht000a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从时空数据中挖掘模式在人类出行行为、智能交通、城市规划和生态研究等方面有着重要的应用。信息化城市建设的一个重要问题是如何从海量的轨迹数据中挖掘出频繁轨迹序列模式进行定位感知和基于位置的服务(location-based services,LBS)。传统的轨迹序列模式挖掘算法由于挖掘过程中会产生大量中间子序列,严重影响算法收敛速度和挖掘效率。另外,随着定位技术的飞速发展,时空数据的获取越来越广泛,数据规模越来越大,传统的轨迹序列模式挖掘算法存在内存开销大、处理速度慢、空间不足等问题和挑战。针对以上两个主要问题,本文提出了基于Spark的轨迹频繁模式挖掘算法,具体研究内容如下:(1)针对因个人轨迹的不确定性和轨迹数据的隐式表示,不能直接应用现有的传统序列挖掘算法的问题,首先采用分组和分区的思路对原始的轨迹数据进行抽象表达,并将轨迹转化为公共段时间序列,提出了一种轨迹模式挖掘框架与基于前缀剪枝的分布式轨迹频繁模式挖掘算法。(2)为了减少冗余轨迹模式的产生,设计了路径邻接修剪策略和相关算法进行了有效剪枝。(3)针对大规模轨迹数据带来的挖掘效率问题,本文结合Spark集群的内存计算优势,设计并实现了基于分布式框架的挖掘算法,同时在负载均衡方面进行了优化改进。(4)在公共数据集和实际数据集中对轨迹表达、剪枝策略和分布式算法进行了实验验证,结果表明,本文算法有效地提取了频繁轨迹模式,尤其是在海量轨迹数据环境下,与常见轨迹模式挖掘算法相比,本文算法在提升整体性能的同时兼备了良好的可扩展性。
其他文献
在当今信息时代的背景和进程下,作为信息技术载体和媒介的印刷电路板(Printed Circuit Board,PCB),从我们日常生活中经常接触和使用的手机、电脑等各类电子产品,到军事中的飞机、卫星等领域都有着广泛的应用。由于工业生产中对PCB更高的要求加之现在的电子产品高度的集成化,PCB板的生产更加细化、走线结构更加复杂,从而导致PCB板带有缺陷的概率大大提升。PCB板必须保证线路连接、线距以
纤维结构是存在于太阳色球层中的一种呈现出喷射状态的线性拉长结构,研究色球纤维的动力学特征能够帮助人们对太阳大气质量平衡以及针状体的演变过程进行更进一步的研究。进行纤维结构动力学特征的研究的前提是对太阳色球纤维进行准确的识别和提取,因此选择一种高效准确的识别方法是当前人们的关注重点。在进行色球纤维识别前,我们首先对纤维图像的特点进行了分析研究,发现当前纤维识别的难点以及存在的问题仍然有许多。因为在色
预测和推理未来结果的能力是智能决策系统的关键组成部分。近些年,以深度学习为代表的机器学习预测算法取得迅猛发展,广泛应用于天气预报、自然灾害预警、疾病诊断等领域。然而,在太阳光球磁场演化研究方面,由于缺乏完备的数据集和全面的评价标准,以及演化过程中存在磁结构运动、形变、浮现、消失等多种复杂变化交织的问题,使得直接在时间和空间上预测磁场的演化过程具有较大挑战,所以目前尚无对太阳磁场的演化过程进行预测研
随着我国网络技术普及度的加深,网络社交媒体中产生了海量的带有情感色彩的文本数据。研究者们根据情感表达中是否含有情感词,将其分为显式情感表达和隐式情感表达,由于我国网民更倾向于通过含蓄的方式来表达情感,所以中文的隐式情感表达数量非常庞大。对这些海量的隐式情感表达进行分析,是情感分析研究中不可或缺的重要部分,在舆情分析、升用户体验以及改进服务和产品质量方面,具有广泛应用场景和重要研究意义。本文对源自社
随着电子商务的快速发展,服装市场的潜在价值也在逐步显现,针对服饰检索、服饰识别和服饰推荐等计算机视觉领域的研究出现一系列研究任务。我国有55个少数民族,民族服饰种类繁多,服装结构复杂,语义属性丰富,能够将服饰图像检索技术与民族服饰文化相结合,对民族服饰实现数字化,这对传统民族文化保护具有重要意义。民族服饰图像具有不同民族风格的服装款式、配饰和图案导致的民族服饰图像细粒度检索准确率较低的问题,本文提
近年来,法院工作已经成为互联网媒体和舆论关注的焦点,来势汹涌的网络舆情给法院工作造成了巨大的压力。面向案件微博评论的情绪分析有助于法院等相关部门及时了解和掌握案件微博舆情,然后进行舆情监控和传播引导。面向案件微博评论的情绪分析属于特定领域的任务,存在没有公共数据集、情绪表达具有领域性等研究问题,值得深入研究。本文研究面向案件微博评论的情绪分析方法,主要从以下几个方面开展研究:(1)案件微博评论情绪
金属作为制造业的支柱产品之一,金属的质量优劣影响着终端产品的质量。金属表面缺陷检测是金属质量控制的重要一环。金属的表面缺陷检测中,基于机器视觉的检测技术已经成为主流。机器视觉本质上是模仿人类视觉系统,现在表面缺陷系统中硬件设备已经较为成熟,因而图像处理技术成为研究重点,其性能决定着整个缺陷检测系统的性能。金属表面缺陷图像存在着,缺陷和背景对比度低,缺陷类型和尺寸差别大等问题,同时还存在高光和阴影干
汽车作为一种大众消费品早已进入千家万户,伴随着数量增加,安全驾驶的问题也变得越来越显著,其中危险驾驶行为给驾驶员和乘客都带来了极大的潜在危险和财产损失,由于危险驾驶行为具备隐蔽性和无意识性,需要借助辅助设备进行疲劳驾驶检测,故本文提出了综合多因素的驾驶行为评判标准,在一个网络框架下实现了多任务的融合,实时准确且便于移植,该系统的应用对于驾驶员的安全驾驶,智慧城市的推进都具有重要意义。现阶段的危险驾
肺癌是目前所有疾病中对人类威胁最大,却极难治愈的肿瘤疾病之一。及早发现和尽快治疗是当下仅存的防治肺癌最奏效的措施,肺癌在发病初期主要的表现形式是肺结节,医生可以通过对胸部CT的观察和分析对早期肺癌进行及时诊疗。然而,随着肺部CT图片数量的激增,单纯依靠人工从大量CT图片中进行筛查、判断几乎是不可能的。基于深度学习的计算机辅助系统能够对CT图片进行初步的选取处理,可以大大减轻医生负担,降低医生误诊、
阿尔茨海默病(Alzheimer Disease,AD)以及注意力缺陷障碍症(Attention Deficit Hyperactivity Disorder,ADHD)等神经性疾病深深的影响着每一位患者的健康,该类神经性疾病起病比较迟缓,不容易被诊断出来,如果能够在早期及时的发现,则能够在很大程度上降低该类疾病晚期的发病率。人脑磁共振(Magnetic Resonance,MR)图像中的解剖结构