基于Lambda架构的城市一卡通数据分析系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：yaozhongli00

【摘要】

：

本课题源自北京某智慧园区项目。随着智慧城市概念的提出,越来越多的智能化服务被开发出来,为人们提供了诸多便利。城市一卡通是智慧城市的一部分,和人们的生活息息相关,系统

【作者】

：

王野

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2017年期

【关键词】

：

异常检测 Lambda架构聚类机器学习 Spark 大数据分布式系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本课题源自北京某智慧园区项目。随着智慧城市概念的提出,越来越多的智能化服务被开发出来,为人们提供了诸多便利。城市一卡通是智慧城市的一部分,和人们的生活息息相关,系统每天产生的大量刷卡数据,对我们数据的分析和管理工作提出了很大的挑战。数据分析系统可以实时的从刷卡数据中发现异常并及时预警,将被盗或者遗失的一卡通进行账户冻结和权限锁定,以减少用户的损失,这样的数据分析体系对于智慧城市一卡通系统来说是必要的。本课题讨论的内容是城市一卡通数据分析系统的研究与实现,实时分析刷卡数据,检测一卡通的各种异常情况,为刷卡数据的异常检测提供一站式解决方案。由于城市人口众多,刷卡行为发生较为频繁,用户刷卡产生的数据量是传统数据处理方式无法应对的,需要采用大数据分布式系统架构。数据分析系统可以识别出短时间内频繁刷卡、消费金额过大、刷卡失败过多、刷卡行为不符合习惯等异常情况。系统采用Lambda架构,以Spark内存计算框架作为出发点,运用机器学习方法,使用历史刷卡数据进行模型训练,采用流式计算框架Spark Streaming调用模型来处理实时的刷卡数据。刷卡数据通过WebService从刷卡终端传送到一卡通业务系统中,经过预处理后交由发布订阅系统Kafka来处理,Spark Streaming从Kafka中读取预处理后的数据进行分析。数据的预处理部分将一天的时间划分为不同的时间段,对每个时间段内用户的刷卡数据进行统计和特征值提取。数据分析的过程采用聚类的思想,聚类算法在异常检测中占有着重要的地位。本文在算法的设计上,根据一卡通刷卡数据的特性,将聚类模型分为两大类:公有模型和私有模型。公有模型利用较多的特征值进行模型的训练,所有用户共享同一模型;私有模型采用最能体现用户刷卡行为特性的少量特征值进行聚类,以保证模型的简洁程度,每位用户具有一套私有模型。公有模型的作用是根据丰富的特征值将异常较为明显的离群数据筛选出来;私有模型是根据每位用户的刷卡习惯来判断刷卡数据是否异常,结合两种模型的判断结果,综合判定该一卡通是否为异常状态。论文的实验部分是采用北京某智慧园区的历史刷卡数据进行模拟的,通过对历史数据的训练,得到我们需要的公有模型和私有模型,使用异常数据对系统进行检测,预测的准确率在80%以上。由于数据模型迭代的原因,随着系统运行时间的增加,预测的准确性稳步提升,表明了算法设计的合理性。在刷卡高峰时段,系统可以平稳的处理堆积在Kafka集群中的刷卡数据,稳定性和实时性较高,达到了预期效果。

其他文献

无线局域网自适应速率控制机制研究

随着无线网络越来越普及以及迅速发展,特别是近年发展起来的高速无线宽带多媒体业务,对无线局域网的带宽提出了更高的要求。为了达到网络对高速多媒体业务的支持,IEEE标准化

学位

IEEE802.11无线局域网调制编码速率自适应丢包率动态参数

不精确本体模型与构建研究

哲学术语Ontology被借用于信息科学领域源于T.Gruber在1993年给出的定义："An ontology is an explicit specification of a conceptualization",其中强调“明确的(explicit) "

学位

语义网不精确性粗糙性模糊性本体构建包含度

基于MMTD的脑电信号去噪与特征提取方法研究

脑电信号(Electroencephalogram,EEG)中含有能够客观地反映出人近期生理和心理状况的信息,通过对EEG信号进行研究和分析,可以获得大量有用的医学、生理和心理信息,对疾病的治

学位

脑电信号中介真值程度度量脑-机接口相对能量相对偏离度

多核处理器中任务调度与负载均衡的研究

多年以来,处理器性能的提升主要依赖其工作频率的提高,然而受到芯片功耗及发热等因素的影响,这种做法已接近极限。在这种情况下多核处理器应运而生并得到了迅速发展,与此同时

学位

多核处理器系统任务分配任务调度负载均衡遗传算法

基于离散基本形式的曲面插值技术研究

在计算机图形学中，关于可形变薄壳物体（即曲面）的计算机动画非常常见。自动生成薄壳物体关键帧之间的动画插值是一项应用广泛的任务。动画插值既减轻了艺术家的负担，又大大缩短了

学位

计算机图形学曲面插值特征模态离散基本形式

CryptDB密文数据库系统研究

随着云计算的快速发展,作为其重要组成的云存储服务受到了广泛的关注。由于失去对数据的物理控制能力,存储在云端的数据隐私无法得到保证,解决方案之一就是对数据进行加密存

学位

云存储选择加密密文计算保序加密密文数据库云安全

基于TD专网的煤矿语音调度系统的研究与实现

近年来全国连续发生多起重大煤矿安全事故,煤炭安全已成为人们关注的焦点,也是国家重点建设投资项目,且对煤矿安全生产预警、应急救援通信、信息化以及全程的监控网络等提出

学位

TD-SCDMA专网语音调度调度会议调度台调度功能

语义Web数据的关键词查询方法

随着语义Web的不断发展,语义Web数据的数量也在快速增长。无论是应用系统或最终用户,都有着对语义Web数据进行查询的需求。但是,面向语义Web数据的形式化查询语言对于普通用

学位

语义Web数据关键词查询模式RDF句子图r出半径图

基于FPGA的旁路算法研究及其应用

在计算机和通信技术日益普及和发展的今天，随着电子邮件、电子自动转账支付系统和零售业务网的建立与实现，用户存储的数据和传递的信息增多，信息的安全保护已经不仅仅局限于政治

学位

旁路攻击AES算法SMS4算法FPGA掩码防御

基于WinCE和GPRS的无线通信模块研究与设计

随着通信技术的快速发展,人们对生活中如何更快速有效地传递信息日益关注。其中,GPRS技术的应用更为人们随时随地地沟通和传递信息提供了方便。另一方面,近几年来嵌入式系统

学位

GPRSWindows CE无线通信嵌入式系统ARM

基于Lambda架构的城市一卡通数据分析系统的研究与实现

与本文相关的学术论文