分布式原位轨迹聚类算法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:herozds2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域常用的算法之一,其原理是将数据集划分成若干个子集,使得子集内的元素彼此之间有着某种程度的相似性,而不同子集之间的元素则相似性较弱;这种算法需要计算数据集中所有元素两两之间的距离,因此执行聚类算法需要将所有数据汇集在一起,而随着大数据时代的到来,集中式数据存储方式已然暴露出越来越多的问题,分布式数据存储方式开始被广泛采用;随着移动互联网的发展,用户轨迹数据快速积累,如何在分布式环境下对轨迹数据进行聚类分析成为亟待解决的问题。本文提出的分布式轨迹聚类算法,针对网络带宽消耗、数据隐私性和聚类准确度三方面展开研究,主要研究内容如下:(1)提出了基于复合抽样的分布式轨迹聚类算法——CSD-Clustering算法。首先分析了当前以局部聚类和全局聚类相结合为主要思路的分布式轨迹聚类算法在聚类准确度上存在的问题,针对这个问题本文采用了多项式拟合与最优化理论结合的方式对轨迹模型进行拟合,这种轨迹模型拟合思路能够很好的保证分布式聚类的准确度,也一定程度地保护了轨迹数据的隐私;除此之外,算法采用了一种复合式抽样方案,该方案能够有效减少网络传输的消耗。最后,通过仿真实验对算法的有效性和可行性进行了验证,实验结果表明,CSD-Clustering算法能够准确完成分布式轨迹聚类计算任务,算法同时也考虑了数据隐私性和网络带宽消耗。(2)提出了基于马尔科夫链的分布式轨迹聚类算法——MCD-Clustering算法。首先分析了以描述轨迹数据分布为主要思路的分布式聚类算法在处理高维轨迹数据时存在的问题,针对这个问题该算法利用高维轨迹数据中各个维度之间的相关性,提出了基于马尔科夫链模型描述轨迹子簇分布的方法。该方法在网络中主要传输马尔科夫链模型对应的转移矩阵,并通过稀疏矩阵存储方式来表示转移矩阵以缓解网络带宽压力;该方案解决了目前分布式聚类算法在无法准确描述高维轨迹数据分布特征的问题,同时改进了CSD-Clustering算法在网络带宽消耗和隐私保护方面存在的不足,但在聚类准确度上稍逊于CSD-Clustering算法。(3)在基于原位计算的多中心大数据分析系统上实现了本文提出的两种分布式轨迹聚类算法。首先对系统架构的总体设计进行了描述,并对分布式聚类算法涉及到的模块训练模块、网络通信模块、综合计算模块和聚类评估模块进行了详细设计,然后通过可视化界面展示了系统截图,展示了系统操作流程和运作情况。
其他文献
抗生素作为一类抗菌化合物被广泛用于人类医学和兽医学中,以治疗许多传染性疾病。但不加区分地施用抗生素可能对人类健康和动物源性食品生产产生影响。而土霉素(Oxytetracycl
碳氢氮硫元素广泛存在于煤炭、石油、化工产品、粮食以及土壤中。准确测量这些元素的含量,对于保证产品质量和生产安全,治理环境污染有重要的意义。这些元素的含量通常采用红
本文以北京市农林科学院设置的4个城市森林生态环境监测站O_3数据和北京市环境保护监测中心发布的2014-2019年O_3数据为依据,结合中国天气网和森林气象监测站实时监测的气象数据;同时利用手持O_3气体监测仪获取不同植物种植组合内O_3浓度数据。旨在确定北京市不同区域O_3浓度背景值和分布特征,以此作为参考探究城市森林内外O_3浓度变化特征,阐明影响O_3浓度分布的主要因素,探究北京城市森林不同
随着国家经济高速发展和产业结构转型升级,国内各行业企业对于海外高层次人才的的需求也随之提高。与此同时,留学国外的高层次人才也被国内的利好所吸引,开始考虑回国发展。然而,在求职市场比较复杂的情况下,海外高层次人才在回国就业及发展方面有许多顾虑和不便,主要包括缺少相关政策支持,缺少功能性沟通平台,缺少科学的测评体系,缺少完善的职业规划闭环体系。以上情况给海外人才回国就业带来了阻碍,不利于国内科技新技术
长沙臭豆腐是中国著名的传统风味小吃,广受消费者的喜爱。提起臭豆腐,“臭”味令人印象深刻,苯酚就是这独特的臭味物质的主要来源之一。目前国内关于发酵型臭豆腐和半发酵型臭豆腐及其卤水中挥发性成分的检测分析、微生物的多样性群落分析以及微生物变化已经做了一部分的研究,但关于长沙臭豆腐卤水中产苯酚微生物的研究尚未见报道。本文首先利用自制的固体培养基对长沙臭豆腐卤水中的细菌进行分离培养,并采用固相微萃取结合GC
Hurwitz zeta函数与周期zeta函数在解析数论中扮演了十分重要的角色,许多学者对Hurwitz zeta函数或周期zeta函数的均值及混合均值进行了广泛而深入的研究,在前人研究的基础上
退耕还林工程是世界上最大的生态恢复工程,肩负着改善生态环境和提升民生福祉的双重目标。然而,由于调节/支持型生态服务和供给服务经常存在内在权衡关系,对景观尺度科学的生态系统管理提出挑战;那么,如何提高退耕还林工程的生态成效,最大程度降低调节/支持型生态服务和供给服务间的权衡,是科学研究与工程管理关注的问题。本研究以辽宁东部水源涵养功能区(抚顺县、清原满族自治县和新宾满族自治县)为研究区域,基于3S技
本文利用李对称方法对时间分数阶多孔介质方程、时间分数阶双多孔介质方程及三类时空分数阶多孔介质方程进行了研究.首先对时间分数阶多孔介质方程进行对称分析,得到时间分数
目的:随着人们生活水平提高,对于健康信息的需求也在增长。当下网络是健康信息查询的主要渠道,在网络查询中,想通过一次查询得到所需结果难度很大,通常需要根据结果反馈来调整查询式,通过查询重构来得到满意的结果。本研究意在构建健康信息查询重构策略预测模型,以期帮助查询系统优化查询推荐服务,提升网络查询系统的交互效果。首先,对用户查询重构前行为变量与查询重构策略进行相关分析,进而筛选出健康信息查询重构策略预
超声空化问题的研究在物理,化学,生物和医学等相关领域中具有很高的应用价值和发展前景。多泡空化问题属于复杂的多体问题,是当前研究的难点,也是未来发展的重点研究方向。本