面向轨迹大数据的高效聚类算法设计与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:along_1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网与传感器技术的日趋成熟,人们对实时位置数据的获取更加便捷,由此移动对象轨迹数据的获取变得越来越容易,从而积累了大量的轨迹数据。这些轨迹数据中蕴含着大量反映移动对象行为规律的有价值的信息。聚类是一种挖掘轨迹数据常用的、基础的方法,可以发现具有相同或相似特征的轨迹,为轨迹的异常检测、智能交通预测等应用奠定基础。本文深入研究了融合轨迹多种特征的高效聚类方法,充分考虑轨迹数据的时空特征和运动属性,结合K均值(K-Means)、局部异常因子(LOF,Local Outlier Factor)、变色龙(Chameleon)等算法,在Map Reduce框架的支持下,设计并实现了大规模车辆轨迹数据的并行和增量聚类算法,在提高轨迹数据聚类分析准确度的同时,大大提高了大规模轨迹数据的聚类效率。本文的主要研究内容包括如下三个方面:(1)针对车辆轨迹聚类过程中轨迹属性考虑不全面、融合不充分导致的轨迹相似度度量不能充分体现轨迹特征的问题,提出了基于轨迹多特征融合的FK-Means聚类算法,该算法是将离散Fréchet(弗雷歇)距离度量方法与K-Means算法相结合,融合轨迹多属性来计算轨迹间的相似度,解决了具有多属性特征的车辆轨迹聚类问题。实验结果表明,提出的方法对于发现轨迹数据的共同特征具有更好的效果。(2)针对大量轨迹数据在聚类分析时效率较低的问题,提出了基于Map Reduce框架的FK-Means-LOF算法,该算法首先使用Map Reduce框架实现FK-Means算法的并行化处理,然后使用改进的LOF算法对并行化聚类得到的结果进行优化,提高并行化过程导致的全部聚类准确度下降的问题。实验结果表明,该算法在保证轨迹聚类过程全局精度的前提下,有效提高了大规模轨迹数据的聚类效率。(3)针对轨迹数据更新快而传统聚类算法不能局部高效重聚类的问题,提出了面向轨迹数据的增量聚类的模型与其实现算法FK-Means-DC,该算法主要分为两个阶段,第一阶段使用FK-Means算法对轨迹数据进行聚类,第二阶段是将变色龙算法与双向广度优先搜索算法(DBFS,Double breadth First Search)算法组合来整合聚类结果,避免少量新增轨迹导致的所有轨迹数据重聚类消耗,提高轨迹聚类分析的效率。实验结果表明,提出的局部增量聚类算法具有较好的泛化能力,有助于时延敏感型聚类分析项目的应用。
其他文献
Ni2FeGa合金因其具有高饱和磁化强度和良好的磁热效应、磁电阻效应等性能,受到科研工作者的广泛关注。然而Ni2FeGa合金纳米线尚未成功合成,其基本的物理性质尚未知晓。Ni2FeGa合金在一维尺度下,是否还具有块材形态丰富的物理特性,是否会出现新的性质,这都是值得探究的。本文采用电沉积的方法制备了Ni2FeGa合金纳米线,并对其结构和磁学性质进行了表征。对于纳米线的制备,以硫酸盐为电沉积主盐,双
学位
近年来,地球生态环境持续恶化,鸟类的生存状况日况愈下,甚至濒临灭绝,世界各国都在为保护濒危鸟类做出努力。但由于鸟的种类众多,若仅凭肉眼判断,不仅效率低劳动量大,准确率也难以得到保证。加之人类无法全天候在野外蹲守,使得如何有效统计鸟类种群存在及分布状况一直是一个具有挑战性的难题。随着深度学习的发展,计算机视觉技术得到越来越多研究者的关注。通过该技术自动统计自然界中鸟类的种类及数量分布,相对于人工进行
学位
研究背景:当前,我国成年人的血脂异常患病率明显上升,高脂血症的防控形势严峻。高脂血症被认为是动脉粥样硬化形成、发展的一个重要因素,与多种心脑血管疾病的发生紧密相关,是引起心脑血管疾病的重要独立危险因素。目的:观察楂曲降脂方对高脂血症痰瘀互结证患者的血脂(TC、TG、LDL-C、HDL-C)、血栓风险(D-D、FIB)、炎症因子(hs-CRP、IL-6)、中医症候积分及改善率、颈动脉内-中膜厚度(I
众所周知,重尾分布在分支过程、排队论、可靠性理论、金融工程、数量经济学和保险精算等研究领域都有广泛应用,且独立情形下重尾随机变量序列的Max-Sum等价性质是应用概率论中的一个基本课题,然而在现实生活中,独立性假设往往是不成立的.本文将在两类较特殊的相依结构下,研究重尾随机变量序列的局部Max-Sum等价性,这些结果可应用于风险理论中破产概率的局部渐近性刻画等领域.全文分为五个部分:在第一章中,首
针对协同推荐和序列表征方法在预测用户行为任务上面临的行为不确定性和数据稀疏问题,提出基于意图识别的不确定性行为序列预测(G2IE)方法. G2IE方法根据计划行为理论(TPB),对用户行为序列中受控行为模式进行挖掘;基于信息熵计算相邻受控行为之间的不确定性行为列表的行为转移意图强度;融合行为转移意图增强行为关系,弥补行为意图缺失. G2IE方法挖掘行为的不确定性关系,并用模型进行量化,用于解决行为
随着科技的发展,数据挖掘成为一种从大量的数据中提取出有效信息的手段,并且衍生出了很多分支,比如K-means聚类算法:将相似的东西分到一组,不相似的尽量远离,即是一种无监督的问题。它具有快速、简单的特点,但是也存在很多的问题,比如选点的随机性和离群点的影响,但是即使存在上述问题,并不影响它被广泛地应用在各个领域。K-means算法通常都是在独立同分布下进行的研究,但是这种考量是不完备的,完整的考量
与幼儿交往最为频繁的除了自己的父母就是幼儿园的同伴。良好的同伴关系有助于幼儿获得交往技巧,使幼儿获取安全感和归属感,更有利于幼儿认识自我以及形成良好的人格,因此同伴交往在幼儿的成长过程中是一个不可或缺的核心。本文以幼儿小柯为研究对象展开论述。
学位