高维数据的异常检测算法研究

来源 :浙江工业大学 | 被引量 : 3次 | 上传用户:lovetianbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测旨在从给定数据中发现那些明显偏离常规模式或表现为异常行为的数据。由于在网络入侵、医疗健康、信用欺诈、文本异常、视频监控和社会突发事件监控等领域中有着广泛应用,异常检测已成为数据挖掘的研究热点,并出现了众多异常检测算法。随着现实数据的维数越来越高,异常检测面临两个困难亟待解决:一方面,数据的高维性不仅使得异常数据难以识别,而且加剧了学习模型的复杂度;另一方面,数据维数的增加导致数据之间的欧氏距离相差很小,即高维空间中任意数据之间距离非常接近,使得数据的邻域信息难以获取。因此,如何从高维空间中有效地获取数据的邻域信息是异常检测所面临的问题。
  针对以上问题,本文围绕高维数据的异常检测方法,从建立有效的空间映射机制、高效的获取邻域信息这两个方面开展研究,提出了三种高维数据的异常检测方法。这些方法包括基于哈希空间映射的高维数据异常检测方法、基于表征和重要度排序的异常数据检测方法以及基于稀疏表征的异常数据检测方法,实验分析表明这些方法有效提高了高维异常数据检测的性能。本论文主要工作和创新如下:
  1.针对在高维空间中数据的异常特性难以识别的问题,本文提出了基于哈希空间映射的异常数据检测方法。该方法利用局部敏感哈希(LSH)高度的邻域保持特性,通过LSH方法得到新空间下的有效的数据相关性信息,同时融合谱聚类的方法来提高异常数据的识别率。实验表明所提出方法能够在低维空间中获得丰富的数据相关性信息,从而在降低算法复杂度的同时提高算法的精度。
  2.针对高维数据中由于距离度量失效导致的邻域信息难以获取的问题,本文提出了基于表征和重要度排序的方法,该方法首先将每个数据通过其它数据进行表征,进而利用这些表征关系生成数据的关系矩阵,结合改进的PageRank重要度排序方法获得异常数据。使用数据表征的方法不需要距离计算就能获取数据之间的邻域关系,从而获得稳定的数据相关性,在多个真实数据集上的实验结果验证了该方法的有效性。
  3.针对基于邻域的高维数据异常检测方法中无法自动选择近邻问题,本文提出了基于稀疏表征的高维数据异常检测算法框架。该方法通过稀疏学习技术将高维数据投影到低维空间中,并使用自表征方式探索具有代表性的邻居,之后将邻域信息转换为相似关系,在此基础上,分别利用随机游走和谱聚类这两种技术识别异常数据。该方法的优势在于能自动获取邻域关系且不需要进行参数设置,在多个真实数据集上与多种算法的对比实验表明所提出方法极大提高了算法的精度和稳定性。
其他文献
随着智能辅助驾驶及自动驾驶系统的发展,复杂道路场景下基于视觉的车道线检测已成为热点研究课题。现有的车道线检测算法分为两大类,一类是基于传统图像处理的算法,另一类是基于深度神经网络的算法。第二类算法的准确性比第一类算法更高,但是也存在两个问题。(1)在复杂道路场景下,准确性会下降,主要原因是:深度神经网络的实际感受野远小于理论感受野;神经网络在推断时容易被无关的信息干扰。(2)深度神经网络算法在运行
随着互联网技术和产业的不断发展,如何保障网络接入设备的安全已经成为一个重要的议题。入侵检测系统可以很好地区分网络连接中的正常和异常行为,是保障网络安全的一个重要手段。然而现在的网络入侵方式往往使用多种机制来伪装攻击并逃避检测,这对入侵检测系统提出了新的挑战。虽然有许多来自机器学习和模式识别领域的监督和无监督学习算法已经被用于提高入侵检测系统的效率,但是它们还是存在一些问题。无监督学习的算法不需要大
图像补全是计算机视觉中的一个重要研究方向,具有广阔的应用前景。深度学习图像补全方法一般有基于自编码器、生成对抗网络和循环网络这三种基础技术的方法,然而大部分方法的输出结果都非常单一,对每一张缺损图像输入都只能生成一个补全结果。由于每一张缺损图像的可能结果所对应的概率空间非常大,为了获得补全结果的多样性,本文提出一种基于标签差异化的图像补全方法,称为LD-PICNet(Label Different
近几年,随着人工智能与多媒体技术的飞速发展,人们的工作、生活以及娱乐在智能终端呈现出丰富的多模态样式,导致多模态数据呈爆炸式地增长,这些数据主要包括文本、图像、音频等。由此,跨模态检索的研究逐渐成为多媒体领域的一大热点。并且由于不同模态数据之间表示的形态不同,计算机难以理解不同模态数据分别表示的对应的含义是否相同,使得跨模态检索也成为多媒体领域研究的难点之一。
  菜谱中不同模态数据相互检索是人们生活中普遍的应用。本文主要研究的是针对图像和文本的跨模态菜谱检索,它是指从将菜谱中的文本作为查询,从图像
机器阅读理解是使机器阅读并理解给定文章和相关的问题,预测相关问题的答案。机器阅读理解是自然语言处理领域最重要的任务之一,被认为是人工智能发展过程中最具挑战性的方向之一。随着众多大规模高质量数据集的推出和各种深度神经网络的使用,机器阅读理解得到快速发展,进步显著,答案预测准确率远超人类。
  近年来,预训练语言模型被创造性的提出。由于预训练语言模型的优秀表现,现有的绝大部分机器阅读理解模型,在编码阶段使用预训练语言模型编码给定的文章和文章相关的问题,在信息融合阶段使用多种注意力机制将文章信息跟其相关的
在当今大数据时代,大规模数据处理主要是基于分布式的并行处理计算,调度在提高大数据并行处理框架的性能方面起着重要作用。Spark作为大数据处理领域最新技术进展,其是一个基于内存计算的并行计算框架,使用多线程任务调度模型。在Spark任务调度过程中不会考虑内存资源,而是由用户设置参数确定任务执行进程中并发执行的任务线程数量。这对任务线程乃至整个应用程序的执行性能造成了潜在限制。为了克服现有的Spark任务调度中存在的这种限制,本文提出一种动态内存感知的Spark任务调度策略(Dynamic Memory-Aw
社交网络,通信网络、传感器网络等迅猛发展催生了大量快速变化的网络数据。由于图可以捕获网络数据中复杂的依存关系和交互作用,因此网络数据可以很自然地被表示为一个图。图数据通常是动态变化的,许多应用必须利用最新的图数据才能产生可以反映当前状态的结果。然而,传统的计算方式需要在整个数据集上重新运行,存在效率不高和资源浪费的问题。增量计算是提高大规模动态图处理效率的有效手段。它的基本思想是利用上一个图的计算
随着地理定位和地理标记技术的普及,许多基于位置的应用正在涌现,如附近美食的定位和酒店预订等。最近几年,许多学者对组合空间关键字查询(Co SKQ)进行了广泛的研究。然而,组合空间关键字查询问题通常只寻找一组对象作为结果。但在实际应用场景中,用户往往希望得到多组查询结果,并从中选择出其最感兴趣的查询结果。另外,现有处理Co SKQ问题的方法都基于索引结构,这不仅需要额外内存开销,而且不适用于流数据源
癌症是一种复杂的基因病,对人类健康构成严重威胁,是全球范围内的主要死亡原因之一。下一代测序技术的产生和发展,带来了多组学高通量数据,同时也为理解癌症潜在机制和实现精准医疗提供了巨大的可能。体细胞突变中只有一小部分是驱动突变,为肿瘤发展提供了选择性增长优势,大部分突变为中性的乘客突变,准确识别驱动突变对于癌症研究具有重要意义。但是,现在识别方法多数基于整个基因或单个突变位点,忽略了功能元素的中等规模
摘 要:排气系统作为重要的发动机部件,对发动机性能和噪声都有极大的影响.为提高汽车安全性和乘坐舒适性,优化排气系统的设计,根据相关设计要求对排气系统进行了强度和模态分析.首先基于CATIA软件,建立排气系统的三维模型;再用Hypemesh软件进行网格划分、简化模型、施加约束等操作,通过OptiStruct求解器对排气系统进行1 G静力分析、4 G静力分析、约束模态分析.仿真结果显示,排气系统在1
期刊