基于多视角聚类的离群检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:richardwang_wjw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群检测是数据挖掘的重要任务之一,它的主要目标是从数据集中发现与大部分其他数据点有显著区别的样本。这些数据点往往蕴含着重要的信息,有很重要的使用价值和广阔的应用前景,为全面认识数据提供支持。因而,近年来离群检测算法在各个专业领域应用广泛。包括网络入侵,信用卡欺诈,生态系统失衡,医疗卫生等。在大数据时代,面对爆炸增长的海量数据和多维数据带来的维数灾难,怎样快速挖掘出隐藏在其中的离群点成为一个极具挑战性的课题。传统的离群检测算法,例如基于聚类的,基于密度的离群检测算法,大多从全部属性空间寻找离群点,然而,有些离群点的离群特性只能在特定的子空间才有所体现,维数灾难淹没了这些离群点。另一方面,传统离群检测算法只从单一视角解读数据,然而对一个数据集,可能内部蕴含不同的产生机制,从而有不同视角的加以解读。针对传统算法在维数灾难和单一视角情况下不能有效发现离群点的问题,本文提出一种基于多视角聚类的离群检测算法。该算法一方面采用谱聚类,以确保高质量的聚类结果;另一方面通过希尔伯特-施密特独立性准则,以确保新的聚类结果相对于已知划分模式是无冗余的。对得到多个视角进行离群分析,从而得到更准确的离群集。具体而言,多视角聚类离群检测算法KDAC具体工作如下:1分析单视角下离群检测,重点分析单视角存在的离群信息淹没问题和对离群点解释性的问题,分析多视角在解决这些问题方面的优势。2 KDAC利用谱聚类获得高质量的聚类结果。介绍谱聚类算法,分析谱聚类优势,为多个视角的发现打下坚实基础。3引入希尔伯特-施密特独立性准则HSIC,将HSIC作为新视角发现的评价指标,确保新视角和已知的划分模式是无冗余的。4集成多个视角下的候选离群集,获得全局情况下top-n离群点。为验证HSIC算法的有效性,在多个数据集上进行实验,实验结果表明该方法能够提高离群检测效果,对单视角下漏检的离群点也有很好的发现能力。
其他文献
嵌入式智能终端软硬件的发展为虚拟化技术提供了新的发展平台——嵌入式终端虚拟化(Mobile Virtualization)。嵌入式终端虚拟化技术不仅可以节省软硬件成本,缩短软件开发周期
无线传感器网络(Wireless Sensor Networks, WSN)在军事、农业、环境监测、医疗卫生、工业、智能交通、建筑物监测、空间探索等领域有着广阔的应用前景和巨大的应用价值,被认
时序逻辑在程序验证和人工智能的规划领域都起着至关重要的作用。作为最具代表性的时序逻辑之一,线性时序逻辑(Linear Temporal Logic,LTL)已被广泛应用于反应系统和并发系统的
经过二十多年的发展,多目标遗传算法由出现逐渐走向成熟。作为遗传算法的一个重要分支,它不仅在学术上得到广泛的研究,在工程应用领域也受到日益重视。它继承了遗传算法不需要搜
ICMN(Intermittently Connected Mobile Network)泛指端节点间的链路连接时断时续的网络。随着自组织概念的渗入,ICMN主要涉及具有自主组网能力的无线网络。这些网络中,节点
基于内容的视频拷贝检测(Content-Based Video Copy Detection),简称视频拷贝检测(CBCD),是数字视频版权保护与内容管理的重要技术手段之一,逐渐引起国内外学者的关注。本文
随着计算机、网络、通信等多种技术的迅速发展,网络视频监控系统得到越来越广泛的应用,目前已渗透到教育、政府、娱乐场所、医院、酒店、运动场馆、城市治安等多种领域。但现
我国是皮革工业大国,但是目前对皮革的分类仍然主要依靠熟练工人的目视辨别,必然很难保证产品的一致性和稳定性。随着电子技术和计算机技术的发展,采用数字图像处理技术将皮
基于信息技术电子通信网络的高速发展,使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心,向学生提供专业知识、专业素养等全方位的支持。通过
信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于