基于Spark的社交网络行为异常检测研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cxtctb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,在线社交媒体作为一股重要的力量推动了大数据时代的降临,在扩大自身影响力的同时对人类社会的发展也产生了重大影响。众多线下活动逐渐拓展为线上活动,如微博、微信、BBS及国外推特之类的社交平台,用户通过在此类平台上注册账号进行相关的社交活动。各类社交平台的出发点自然是提倡良性的扩展交际圈,然而在社交平台上引发的恶意行为却是屡禁不止。由于社交网络具有开放性、及时性的特点,一些攻击者通过异常账号散播广告、谣言或恶意关注、点赞等,这些恶意行为能够在短时间内迅速扩散,若是未能及时发现并处理,将造成恶劣影响。因此,对社交网络中异常行为进行检测,有利于打造风清气正的网络环境。本文对国内外的研究现状进行了详细的剖析,系统的学习了目前机器学习技术的应用,将深度学习运用到社交网络异常行为检测,采用基于消息内容的算法检测方案确定异常行为对应的账号主体。此外,面对社交平台上产生的海量数据以及对计算效率的要求,本文深入研究了大数据分布式计算平台并提出优化方案,确保计算效率的同时最大化集群利用率,主要工作如下:1.对采集的数据集中的文本日志做向量化处理,从预处理的文本数据中提取主题词,保留与主题词相似度较高的单词。本文提出基于语义空间向量的特征模型,可以做到最大化还原原始文本的语义,为后续准确描述文本特征和提高检测准确率打好基础。2.传统的机器学习算法在社交网络行为异常检测方面有着很大的缺陷,本文先后构建RNN、GRU和LSTM模型,依次对预处理过的数据集进行测试比较,最终提出带有采样层的自编码模型,使用人工神经网络模拟人类学习的方式,进而学习到用户行为序列中的前后联系。实验表明检测准确率接近90%,普遍优于传统的机器学习算法。3.针对社交网络上海量数据问题,本文提出基于Spark分布式计算平台的异常行为检测方案,使得在廉价的机器上也能达到高性能计算。使用Spark提供的多种算法进行测试,通过比较不同算法在不同平台上的效率,总结异常检测算法的适用性。为解决shuffle阶段发生的数据倾斜问题,本文提出基于随机前缀的聚合划分方案,在多种场景下优于默认的哈希划分方案。此外,根据实验环境、数据规模等条件进行合适的参数资源配置,在保证计算性能的同时最大化集群利用率。
其他文献
动态污点分析是一种针对二进制软件进行脆弱性分析的技术。该技术将程序中非信任来源的数据标记为污点数据,并在程序运行过程中跟踪污点数据的传播过程,从而检测程序中存在的污点数据非法使用情况。现有的动态污点分析技术面临性能开销挑战,主要体现在仅以二进制程序单条指令为粒度进行动态污点跟踪,在被监控二进制程序的每条指令前插桩用于污点跟踪的代码,从而带来了巨大的性能开销。针对上述问题,本文针对二进制运行过程中的
学位
车联网作为智能交通系统中的重要组成部分,在交通管理、安全驾驶以及网络服务等方面均得到了广泛的应用,为提供安全的交通环境发挥重要作用。另一方面,由于车联网具有网络拓扑变化快、通信稳定性差等特点导致车辆节点容易遭受到多种网络攻击,这些网络攻击又为智能交通增加了很大的安全隐患。节点异常检测是实现网络安全的一道重要防线,当网络遭受攻击时,高效的异常检测机制可快速检测出异常节点,并将其隔离网络之外,避免影响
学位
近年来,随着机器学习和云计算的快速发展,利用云计算平台执行机器学习任务的模式应运而生。云计算服务商利用具有强大计算能力的服务器,向用户提供灵活轻便的机器学习服务,从而显著减轻用户的计算负担。然而,将数据发送到云服务器进行计算的方式对用户数据的安全带来巨大挑战。对于云环境下的数据隐私泄露问题,现有的解决方案主要基于三种技术,即同态加密、安全多方计算以及差分隐私。同态加密通过加密大量数据来保护隐私,但
学位
时延敏感型物联网场景要求物联网平台提供低时延、高质量的智能服务。中心化架构的物联网平台计算中心距离终端设备远,数据传输延迟高,采用边缘计算技术在近设备端部署服务可以解决云中心延迟高的问题,但边缘云的分散化部署导致服务管理协同困难,同时单个边缘云计算资源有限,难以独立处理大规模的计算任务。针对以上问题,本文提出一种适用于时延敏感型应用场景的物联网边云协同架构,基于所提出架构研究面向大规模时延敏感任务
学位
随着天地一体化信息网络的构建,空间信息网络得到进一步发展,卫星作为空间信息网的重要组成部分,承担着数据获取、查询和传递的重要任务。卫星所处的空间环境复杂恶劣,信道环境开放,卫星易受到多种形式的攻击。在数据层面,受到攻击的卫星节点可执行一定概率丢包的灰洞攻击,从而影响卫星网络性能,对数据传输造成很大影响。本文通过对卫星节点处理消息包的行为作为依据,研究安全路由的构建机制,保障信息的安全有效传输。具体
学位
无线局域网因其低成本、便携性、易扩展等特点,广泛应用于企业、家庭等场景。随着IEEE 802.11ax(Wi-Fi6)标准化进程的基本完成,802.11工作组开始制定下一代WLAN系统标准,即IEEE 802.11be。802.11be协议设计的基本目标为极高吞吐量,在PHY层支持更高阶的调制方式,更多的空间流以及更灵活的资源单元分配,在MAC层研究可进一步提升系统吞吐量和降低时延的关键技术。本文
学位
随着无人机智能化水平的不断提高,无人机的应用领域越来越广,单个无人机已经不能满足复杂的任务场景需求,无人机集群协同控制技术成为无人机领域的重要发展方向。在真实无人机集群上测试无人机集群协同控制系统是一个复杂的过程,需要投入大量的时间、金钱和研究精力。因此,无人机仿真平台可以作为无人机集群技术先期验证的有效手段,促进技术迭代,降低试验成本。目前大多数无人机仿真平台主要集中在无人机飞行模型、传感器模型
学位
电子健康记录(EHR)的共享对于医学技术的研究与发展具有深刻的意义。随着医疗机构由纸质办公系统向电子健康系统的转变,基于云计算的EHR共享方案带来了很多方便。但基于中心架构的云存储共享方案存在如云服务器半可信、云与恶意者共谋等安全问题。近年来,医疗数据泄露的事件层出不穷,对医疗数据的隐私保护与安全共享成为人们越来越关注的问题。另一方面,区块链技术是随着数字货币普及而兴起的分布式账本技术,具有去中心
学位
随着智能Android设备普及率的提高,随之上线的各类应用程序也越来越多,但随之而来的安全隐患也逐渐升高。近些年有关泄露隐私、财产损失、诱导欺骗等类似的事件层出不穷,因此,维护Android软件环境的安全性刻不容缓。本文基于对现有Android恶意软件检测方法的研究,发现现有检测方法大都使用单一特征或组合特征,而这些方法存在两方面的问题:一方面,这些方法大都忽视了特征之间的关联,而且所使用的字符串
学位
随着21世纪科学技术的快速发展,互联网对人们的生活产生了巨大的影响,网络已经渗透到了人们生活中的所有领域。采用复杂网络的分析方法,能准确地表示网络的连通性等统计特征,在网络分析设计和其他应用中具有重要意义。目前描述这些网络图的方法有图的最短路径介数中心性、聚类系数和度分布等,虽然这些度量在特定方面为网络图提供部分信息,但仍然无法提供复杂网络的多方面特征。在现实世界中,通常所有抽象的复杂网络都存在一
学位