大规模数据集中快速检测离群点算法的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:hnxmyuandong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极大的局限性。大规模数据集具有数据数量大、类型繁多等特点,同时蕴藏着大量的信息或知识,而这些信息或知识只有被及时地从数据中检测出来才有可能给人们带来效益。因此,需要研究从大规模数据集中快速检测离群点的新方法,为决策提供支持。  现有的从大规模数据集中检测离群点的加速方法存在的主要局限是:(1)在进行数据划分时大多没有考虑数据之间的关联性,致使每个数据最近邻的确定涉及整个数据集;实际上,数据的最近邻只存在于某个较小范围内。(2)在分布式检测方法中,未能给出有效的终止规则和合理的数据传递模式,导致节点间的通信量大,降低了算法的总运行效率。  针对以上两个问题,本文采用BIRCH(Balanced Iterative Reducing andClustering using Hierarchies,BIRCH)聚类方法对原始数据集进行划分,并在此基础上利用簇中所包含的统计概要信息计算簇与簇之间的距离,再根据该距离给出缩小数据块查找范围的方法、数据块处理的优化方法、簇内索引的构建方法以及数据传递和数据处理顺序的优化策略。本文的主要工作如下:  (1)分析比较了几种具有代表性的传统离群点检测方法;归纳总结了现有针对大规模数据集离群点检测技术的现状和发展趋势。  (2)针对现有大规模数据集中检测离群点的加速方法没有将数据集进行合理划分导致离群点检测过程计算量大、磁盘I/O频繁等问题,提出基于聚类划分的离群点检测算法。算法采用BIRCH聚类方法对数据集进行划分后,根据簇与簇之间的距离给出缩小数据块查找范围的方法和数据块处理的优化方法。缩小数据块的查找范围可以减少数据点之间的比较次数从而减少距离的计算量,优化的数据块处理方法可以减少磁盘I/O次数,两者相结合可有效提高算法的检测效率。  (3)针对现有基于分布式的离群点检测方法没有对原始数据集进行合理划分,且未能给出合理的终止规则和有效的数据传递模式的问题。本文提出一种基于聚类和索引的分布式离群点检测算法(Distributed Outlier Detection based onClustering and Indexing,DODCI)。该算法既考虑了数据的划分,又考虑了数据的处理顺序以使后续剪枝过程的剪枝因子能在初始阶段获得一个较高的值,进而提高剪枝效率。同时,算法在分布计算的过程中还结合了两个优化策略和两条剪枝规则,以减少节点之间的通信消耗。  (4)为了方便测试本文所提算法,设计并实现了一个简单的离群点检测原型系统。该系统是在Visual C++6.0平台上,使用C++语言并结合面向对象的编程思想来实现的。
其他文献
移动Ad Hoc网络,即一种特殊的自组织对等式多跳无线移动网络(MANETs)。20世纪90年代至今,随着无线网络技术及应用的普及,Ad Hoc网络借助其自身无中心自组织、多跳路由、动态拓扑
在计算机和网络技术快速发展的时代,生物特征识别技术日益被人们所重视。虹膜具有丰富且持久的纹理特征,相比其它生物特认证技术,虹膜识别技术的的稳定性、准确性更高,并且具
数字图随着计算机信息技术的发展,网络上的数字资源与日俱增,与此同时,人们面临的不是数字资源的缺少,而是如何在海量的数字资源中找到合适的资源。正因如此,研究者们根据这个需求
卷积神经网络(Convolutional Neural Network,CNN)是一种受Hubel-Wiesel生物视觉系统启发的多层变种感知机(Multi-Layer Perception,MLP),它无须改变图像的拓扑结构,能在训练
软件测试的目标是为了发现程序中潜在错误,其中的关键因素就是如何快速自动化的生成测试数据,传统的人工测试耗费大量人力物力,因此自动化测试技术越来越受到人们的重视。测试数
针对应用时间序列方法在处理数据不足、缺失和信息模糊性的问题,本文在Type-2模糊时间序列预测模型基础上,首先,将模糊聚类的算法引入Type-2模糊时间序列模型中,利用物以类聚的思
人脸识别是图像处理和计算机视觉领域的一项重要研究内容,其主要目的是通过匹配数据库来检测输入的测试人脸图像属于哪一类别。脸部识别率指的是正确识别出的脸部图像的比率。
随着高性能计算的发展,超级计算机在功率和能耗方面的不足正在逐步显露。目前超级计算机的系统功耗普遍在5000KW以上,而地球模拟器的峰值功耗则达到了12MW[1],即一天的耗电量可
当今社会,计算机软件与人们的生活息息相关,人们对软件质量的要求也越来越高。软件在运行时发生失效,如何实现快速、高效的、准确的软件故障定位仍是学术界和工业界研究的关
随着计算机网络技术的迅猛发展,网络时间隐通道受到越来越多的关注与研究。网络时间隐通道以数据包可携带的时间变量(time variable)作为信息的载体,通信双方通过改变/观察双方