基于分布式的离群点检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:guihuxinxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘领域的热门问题之一,离群点检测(也称为离群点挖掘)是从原始数据集分布中发现显示异常行为的对象,它可用于人群异常行为检测,信用欺诈,入侵检测,医疗保健和物联网(IoT)大数据离群点检测等。关于离群点检测,两个主要挑战是数据的维度和规模。使用集中式的检测方法,必然面对数据的“维度诅咒”,另外随着数据尺度的增加,单一节点的计算在运行时间上也是难以忍受的。本文研究的重点也立足于解决离群点检测中数据的高维和大尺度问题,并在其中对分布式离群点检测方法的性能评价和单分类离群点检测技术进行了研究。特别针对数个基于邻近性的离群点检测方法(属于无监督学习),提出了结合降维技术的分布式模型;对基于单分类支持向量机的离群点检测(属于半监督学习),提出了结合降维技术的复合检测模型。具体来说,本论文从以下四个方面对分布式的离群点检测问题展开了研究:(1)针对基于邻近性的分布式离群点检测问题,本文提出了“推广方差”这一统计学新概念和“网格聚集度”作为算法性能量化的评价,并证明了“推广方差”的数学性质。基于邻近性的分布式算法具体的做法是在数据空间上划分网格,并采用分配算法将各网格中的的数据对象分配给性能各异的数据节点。通过分析得出:对基于邻近性的分布式离群点检测算法,“推广方差”和“网格聚集度”可对数据分配的均衡性和模型产生的网络负载做出客观评价。(2)针对基于邻近性的离群点检测问题中数据尺度增加带来的高运算时长问题,本文设计出一种可以在性能各异的集群中进行布置的数据分配算法,并分别对基于邻近性方法中两种典型方法(基于密度和基于距离)分别设计了计算模型。两种模型均可用多台性能各异的计算机来加速离群值计算,因此更具有灵活性。最后通过实验验证了该模型的有效性和可靠性。(3)本文结合降维技术以及分布式技术与本地离群概率(LoOP)方法提出了基于堆栈自动编码器的分布式模型,有效应对了数据维度问题以及数据尺度问题。对于数据处理中的普遍问题“维度诅咒”在基于邻近性的离群点检测问题中也是同样存在的,因此对数据做降维预处理是当前研究的一个重点。本文通过实验表明使用堆栈自动编码器(SAE)能够很好捕捉到原始数据的特征,在提升了检测算法时间效率的基础上,其检测算法的AUC值以及Recall都是可以接受的,甚至在某些数据集中,由于SAE降维去掉了数据的冗余信息,在AUC以及Recall的表现有了提高。(4)本文提出了一种半监督的混合模型。模型由两部分组成,其中训练无监督的SAE以提取通用的基础特征,然后对训练集进行随机采样得到多个子集,每个子集用于训练一个单分类支持向量机(one-class support vector machines:OC-SVM)作为离群点检测器,最后得出综合判定结果。由于本文将每个离群值检测器布置在不同的数据节点上,因此这个过程减少了计算量。最后将测试集输入各离群值检测器,得到联合判定结果。实验结果表明,与最新的基准相比,本文提出的模型在使用堆栈自动编码器的情况下具有良好的离群点检测性能,同时减少了训练和测试时间。
其他文献
近年来,得益于数据获取、储存、处理等技术的进步,机器学习算法得到了快速发展。机器学习算法起初只应用于图像分析、模式识别等计算机领域,但由于其优越的性能,机器学习算法正作为一种新方法,为解决复杂电磁学问题提供了更多选择。无线通信系统是电磁学的代表性应用。为了搭建性能优良的通信系统,需要了解信道特性,并设计出满足性能要求的电磁器件。因此,本论文以信道建模与器件设计为研究方向,深入研究了相关基础理论与关
切换正系统是一类由几个连续和离散时间的正的子系统以及它们间的切换规则构成的系统。它同时具有正系统和切换系统的性质。切换正系统广泛存在于实际生活中,因此正日益受到学者们的关注。切换正系统由于具有比正系统和切换系统更加复杂的形式,以及更加多变的性质,故而其研究工作更加复杂。与正系统和切换系统相比,目前关于切换正系统的研究还相对较少。关于切换正系统在驻留时间限制下的分析综合问题的研究有待进一步丰富。因此
被广泛认为用以衡量机器是否具备智能的标志之一就是机器是否具备与人无障碍交流的能力,而这一能力主要由隐藏在机器背后的文本生成技术来体现。随着近十年来计算机硬件技术的飞速发展带动深度神经网络的日益更新,其强大的学习能力、特征取能力以及在信息间的映射能力为文本生成模型性能的升带来新的发展契机,同时也产生了一系列新的研究问题。本文着眼基于深度神经网络框架下的文本生成技术的研究,以文本摘要和机器翻译为切入点
物联网时代的到来,为传感器的发展提供了历史性机遇,但同时也带来了新的挑战。为满足物联网新场景下的需求,传感器将朝向微型化、低功耗、高性能方向转变。因此,基于新材料、新结构、新原理的高性能传感器亟待开发。石墨烯材料具有高迁移率、高比表面积、宽吸收光谱、柔性、超薄等特点,因此是极具潜力的传感敏感材料。并且,基于石墨烯的晶体管具有高速、可微型化等优势。高电容的固态电解质是晶体管中十分理想的栅介质层材料,
现实世界中的许多传播现象均可以简化抽象成复杂网络上的传播过程,例如,社交网络上的信息传播,计算机网络上的病毒传播,接触网络上的疾病传播,金融网络上的危机扩散,等等。复杂网络上的传播动力学建模及其干预研究可以为谣言和疾病的防控、产品的营销、以及潮流的引导等提供决策依据,具有重要的现实意义。然而,目前来说,复杂网络上的传播动力学研究还存在着很多困难和挑战。一方面,网络传播动力学系统中的网络结构特征多样
数控机床作为制造业的工作母机,其性能直接反映了一个国家的生产制造能力。精度和效率是衡量数控机床性能的两个重要指标,分别体现在机床加工过程中刀具运动轨迹的轮廓精度和加工速度上。在机床高速加工时,伺服控制系统误差和热误差是影响轮廓精度的主要因素。因此,准确的预测伺服控制系统误差和热误差影响下的轮廓误差是保障加工精度的重要依据。为了高精度地预测加工过程中的轮廓误差,需要对伺服控制系统误差建模、热误差建模
多刚体系统作为一类典型的力学系统,在机械,车辆、机器人及飞行器等诸多领域具有广泛的应用。多刚体系统结构复杂,在许多实际应用中存在模型不确定性、未知的外界干扰及作动器饱和等约束,且具有强非线性和强耦合性等特点。此外,由于空间和成本的约束,难以在多刚体系统的每个需测量部位安装合适的传感器以获取系统的状态,而现有的控制方法多基于状态反馈,且存在控制器结构复杂,参数整定困难,实际控制精度难以保证等不足。本
合成孔径雷达(Synthetic Aperture Radar,SAR)可对目标区域进行全天时、全天候持续观测,已被广泛应用于战场侦测、农林普查等军事和民用领域。SAR数据处理一般包括成像处理以及成像后的图像处理,其中图像处理包括图像的增强、融合、分割以及目标的识别、检测与跟踪等。作为一种高性能图像处理方法,深度神经网络可在数据驱动下,根据任务需求从图像中自动学习目标特征,有着传统机器学习方法不可
人体组织的介电特性主要包括电导率和电容率,它们描述了组织对电磁场的响应特性。临床研究表明人体组织出现异常时其介电特性值会发生改变,因此介电特性可以作为表明组织生理状态的生物标记,为临床诊断提供有价值的信息,有助于疾病的早期发现。另外,利用介电特性能够估计组织内部电流和电磁场的分布,可以将其应用在有关电磁刺激的临床治疗中,所以介电特性分布研究具有重要的临床意义。磁共振扫描中的射频能量特定吸收率(Sp
瑞利散射型分布式光纤传感由于其响应速度快、灵敏度高、传感距离长等优点成为了近年来的研究热点,已经初步应用到地震波监测、地质勘探、智能交通、大型结构健康监测等领域。常见的瑞利散射型分布式光纤传感有:适用于动态应变传感的相位敏感型光时域反射计(phase-sensitive optical time domain reflectometry,Φ-OTDR)、可用于动静态温度和应变传感的相干光时域反射计