基于偏度的密度核聚类及异常点检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wuqianlan987654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着互联网和物联网技术的高速发展,极大地便捷了大规模数据的采集,数据的结构趋于复杂,对海量复杂的数据集进行标注非常困难,如何从无标签的复杂数据中挖掘出有价值的信息成为无监督学习的研究重点。聚类分析和异常点检测是无监督学习领域中至关重要的两个研究方向,而且它们的应用十分广泛,如人脸识别、文本分割、图像处理、网络入侵检测和信用欺诈检测等领域,而本文的研究也将围绕这两个方向展开。密度核心这一概念的提出,使得聚类算法在识别多密度层次和复杂形状的数据集时表现出很强的优越性。DCore是基于密度核心的聚类算法中一个最有代表性的算法,然而DCore算法存在不适应密度层次差异较大数据集和参数难以设定的缺点。为了解决上述DCore算法存在的问题,本文提出了一种基于偏度的密度核聚类算法SDC(A skewness-based clustering algorithm with density core)。首先,结合自然邻居搜索算法,利用自然特征值对数据的偏度概念以及数据点的局部密度进行改良,进而构建出数据的紧致度Com,通过设定适当阈值过滤出核心点,然后利用这些核心点构建最小生成树,并通过切除长边形成各个子树来完成核心点的聚类,而剩余点则采用就近原则分配标签。实验证明,本文提出的SDC算法在不需要设置参数的情况下能够较好地处理非球形、复杂流形和密度层次差异较大的数据集。针对局部异常因子算法(LOF算法)无法检测出复杂流形、直线形和多密度层次的数据集中的异常点问题,本文提出一种数据对象偏态分布的基于平均散度差异的异常点检测方法ADD(A average divergence difference-based outlier detection method with skewed distribution of data objects)。首先,本文基于自然邻居理论和数据统计偏度理论提出数据点的分散度概念,根据数据点的分散度的加速变化,进而提出数据点的平均散度差概念,随后通过设定阈值来区分数据点为正常点还是异常点。通过实验证明,本文提出的ADD算法在不需要手动设置邻居个数就可以检测出复杂流形数据集、直线形数据集和密度层次差异较大的数据集中的异常点。
其他文献
交错桁架结构源于上世纪60年代的美国,目的是为多、高层公共设施(酒店、学校、医院)建筑提供更经济的新型结构形式。交错桁架结构楼层内部存在两倍的柱距使用面积,可以为建筑提供较大的空间,但由于结构在两个主方向刚度相差过大,有很大的动力特性差异。同时,由于结构在桁架方向刚度较大,抗震延性较低,不宜用于抗震设防八度以上地区。在相关课题的支持下,提出一种新型交错桁架-框架结构,此结构在改进原结构抗震性能的基
学位
随着信息化时代的到来,无论是数据产生的渠道和方式,还是数据本身的大小、维度和类型都变得越来越多样化,这使得数据挖掘的发展更具有挑战性。离群检测和聚类分析作为数据挖掘中两个热门研究课题,它们对算法能够更有效地处理各种复杂形状数据集的要求也越来越高。本文针对现有离群检测和聚类算法存在的问题进行深入研究。受数学理论中向量点积在判断两个单位向量相似程度和方向分布作用的启发,本文提出指向数据点邻域分布最密集
学位
圆锥滚子轴承是重要的传动零件,在过去的研究中,国内外学者对其弹流润滑性能和动力学模型分别进行了大量分析,但所使用的传统动力学模型往往无法考虑润滑效应,导致目前有关其润滑与动力学耦合分析的探究还鲜有报道。为了克服圆锥滚子轴承润滑与动力学耦合研究这一难点,并为准确分析圆锥滚子轴承动态性能提供参考,本文在国家重点研发计划项目(项目编号:2018YFB2000604)和国家自然科学基金项目(项目编号:51
学位
本文依托国家自然科学基金面上项目(项目名称:基于体质适应性的VDT办公光环境研究,编号:51778081)。当前,视觉显示终端(Visual Display Terminal)在工作中的应用日渐普遍,依赖计算机执行的工作任务增多,VDT作业目前已成为现代企业中最具代表性的工作模式。VDT作业者的职业健康问题是目前社会普遍关注的热点。VDT作业与非VDT作业相比,其更易引发工作者的视疲劳和心理疲劳等
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种主动型微波成像技术,能够全天时、全天候的获取目标的高分辨图像,在目标的检测和识别中起着越来越重要的作用。近年来,随着SAR分辨率提升和参数估计技术发展,基于SAR的地面非合作动目标检测和识别已经成为国防的重点研究领域之一,得到世界各军事强国的高度重视。然而,由于地面运动目标的非合作性、以及在合成孔径时间内的复杂运动(时
学位
伺服转台作为一种能够实现高精度和高稳定性的转台系统,往往被应用在高性能要求的关键设备上,而且伺服转台的工作状态将会直接影响到整体设备的运行状态。因此,对伺服转台进行健康监测以及故障诊断至关重要。本文结合某具体项目的实际需要,开发出一套具有故障诊断和健康评估功能的转台健康监测系统。本文的主要内容包含以下几个方面:(1)针对实际需求和现实情况完成了转台健康监测系统硬件平台的搭建。首先从组成部分,工作原
学位
随着当前超、特高压变压器的普及,其相比于传统的低电压变压器,在绝缘结构设计,制造工艺,以及绝缘材料的选用等方面都产生了很大的差异。上述差异导致了超、特高压变压器绝缘场强接近设计极限,高场强下由于局部放电引发击穿的过程具有快速发展的特点。在超、特高压变压器出厂试验中频繁发生多起“快速发展型”放电故障案例,即从检测到局部放电到主绝缘击穿或临近击穿仅几分钟,对变压器运行造成极大隐患。同时“快速发展型”放
学位
激光焊接技术以高能量密度的激光束为热源进行焊接,是一种高柔性、高质量、高能量密度的加工方式,现已广泛应用于汽车、航空航天、能源等领域。然而激光焊接技术发展到今天仍存在能量转换效率低、材料吸收率低、碳排放高、设备初期投入高、维护成本高等问题。大量研究仅针对激光焊接的工艺本身以提升焊接质量,缺少对其环境、经济效益的考虑,激光焊接系统的环境影响和经济效益没有得到深刻理解,严重的影响了激光焊接系统的低碳应
学位
随着城市轨道交通网络的不断发展,城市轨道交通运营的关键性愈加突出,同时,城市轨道交通网络的复杂性也给轨道交通运营的安全和效率带来了挑战。精准的客流预测一方面可以帮助轨道交通管理者优化列车的调度、制定合理的运营方案,从而降低轨道交通的运输压力、提升乘客的舒适度;另一方面,也可为出行乘客提供一定的参考,帮助其选择合适的出行时间,有效避开高峰时段。数据驱动的短时交通客流预测方法是通过从数据中挖掘出表征客
学位
“一带一路”倡议的实施为沿线国家带来了很大的发展机遇,随着该倡议的稳步推进,吸引了越来越多的成员国投入“一带一路”建设。“一带一路”不仅是中国实现新旧动能转换,平稳渡过经济增长转型期的重要倡议,也是促进沿线国家共同发展、实现共同繁荣的重要战略。在倡议实施过程中,中国作为主要输出国,主动发起了许多大型跨国项目合作,并不断增加投资,大力带动沿线国家经济发展。因此,对“一带一路”国家经济增长进行分析,了
学位