基于重叠关联聚类和最优k频数度量的离群点挖掘算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:greenranqingiqng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会已进入到数据时代,作为数据挖掘的重要分支,近年来,离群点挖掘得到许多学者的广泛关注和研究。离群点挖掘可以帮助人们在大量数据中准确、快速地获取具有显著异常特征的信息,是一种非常有效的数据挖掘方法。目前,国内外专家学者提出了多种离群点挖掘方法,离群点挖掘技术已经成功应用于入侵检测、欺诈检测、医疗健康、生态保护等多个领域。本文针对基于聚类的离群点挖掘算法存在聚类效果不佳、基于密度的离群点挖掘算法近邻参数k设置困难及参数敏感性的问题进行研究,本文的主要研究内容如下。首先,分析了基于密度的聚类算法,对聚类算法中因参数设置与数据集分布无法良好匹配导致聚类结果存在边界点错聚现象和因参数设置过多使聚类结果存在信息掩盖与信息淹没的问题,在DBSCAN算法的基础上,引入重叠聚类的概念。通过对数据对象进行两次有关联的聚类,达到对数据对象进行预处理的目的,并与基于距离的离群点挖掘算法相结合,提出了一种基于重叠关联聚类的离群点挖掘算法。同时,给出了详细的算法描述与算法流程,对算法的正确性和时间复杂度进行了分析。其次,对基于密度的离群点挖掘算法进行了研究,为解决LOF算法近邻参数k预设困难、参数敏感性的问题,给出了最优k值、最优k集合和数据对象局部离群因子的相关定义,在得到若干准离群点后,引入频数度量的思想,通过排频排序的方式再次校对数据对象的离群程度,提出了一种基于最优k频数度量的离群点挖掘算法。同时,对算法进行了详细描述并给出了算法流程图,对算法的正确性和时间复杂度进行了分析。最后,在UCI真实数据集和模拟数据集中,使用本文所提出的两种离群点挖掘方法对数据集进行离群点挖掘,并与其它多种离群点挖掘算法进行对比实验,验证了两种离群点挖掘算法的有效性。
其他文献
为了能够给扩频通信系统贡献更多优质的扩频序列,扩展扩频序列的研究空间,利用几乎差集偶来寻找序列偶成为了研究热点,这种方法能够间接得到更好的序列偶。本文对几乎差集偶的构造方法进行了研究,结合计算机的搜索性能,通过经典分圆类的方法得到了几种新的几乎差集偶。首先,本文依据已有的经典分圆类的定义和性质,以及几乎差集偶的定义和性质,设计出了通过经典分圆类来构造几乎差集偶的一种搜索算法。通过该算法,得到了大量
随着电力电子源荷设备的大规模渗透,现代配电网谐波污染呈高密度、全网分散化趋势,传统点对点治理模式不再适用,分布式治理方案应运而生。多功能逆变器(Multi-Function Inverter,MFINV)兼具有功并网和谐波治理等多种功能。本文从分布式谐波治理角度出发,考虑MFINV不确定性治理容量,提出一种计及MFINV谐波治理贡献的电压检测型有源电力滤波器(Voltage Detection A
光伏发电因其有明显的间歇性和波动性,给电力系统的调度管理带来严峻挑战。光伏功率预测是目前解决此问题的一种兼具经济性与有效性的方案。由于光伏功率出力特性在不同时间尺度上具有不同的周期性波动性表现,因此需要开展光伏发电功率多时间尺度预测方法研究。本文主要进行了以下几方面的工作:首先,从理论上定性分析气象影响因素对光伏出力的影响程度。在此基础上基于回归分析法与灰色关联分析法,利用历史数据对气象影响因素作
随着大数据时代的到来,在网络分析领域中积攒了大量以图结构存储的数据,且蕴含了丰富的具有实用价值的信息,因此分析和挖掘有用信息的图匹配技术应运而生。当数据规模越来越大,基于快照模式的动态图匹配算法在数据更新频繁时,存在大量的冗余计算,导致算法匹配的时间复杂度过高。针对以上问题,展开了如下研究:首先,针对大规模查询图分解后无法确定多个查询子图优先级,造成匹配时存在冗余计算的问题,根据查询图节点度大小采
在近几十年电网技术飞速发展的整体形势下,电力电缆在城市电网建设等诸多方面得到了更为广泛的应用,因而如何保证电力电缆的安全可靠运行成为了电网必须重视的关键问题之一。电力电缆温度是能够反映电缆运行状况和传输能力的重要指标,因此对电力电缆温度的实时监测变得尤为重要。随着光纤技术的快速发展,分布式光纤测温技术也发展迅速,其良好的电绝缘性、耐酸碱腐蚀性以及强抗电磁干扰性都是电力电缆温度在线监测系统所需要的。
非隔离逆变器的漏电流问题限制了其在光伏系统中的应用和发展。本文以单相非隔离逆变器为研究对象,对传统电压型和电流型两种类型可抑制漏电流的电路拓扑以及目前可升降压可抑制漏电流拓扑的优点和存在的问题进行了阐述。目前可抑制漏电流的电路拓扑中存在加入额外器件较多、升降压能力有限、拓扑结构和调制相对复杂等的问题。针对上述问题,本文通过将传统Sepic电路进行对称设计,并和桥式电路进行级联后优化,提出了一种可抑
钛是一种重要的结构金属,钛元素和其它元素组成的合金是钛合金,TB6钛合金是用于制造航空零件的核心材料。研究TB6钛合金材料性能的前提是定量分析TB6钛合金初生α相组织,检测初生α相轮廓是定量分析其相组织的关键步骤之一。针对要解决的上述问题,根据TB6钛合金初生α相组织特征,基于人类视觉机理,利用人类视觉机理的多尺度特性和固视微动特性,构建基于微动的人类视觉机理模型的轮廓检测算法,检测初生α相轮廓并
随着无线网络基础设施的普及,基于室内环境中WiFi信号的行为感知技术应运而生。与传统基于可穿戴设备或摄像头传感器等感知方法相比,利用WiFi信号进行感知具有成本低廉、易于部署、无需携带设备且不存在隐私泄露问题等优点。通过表征空间中人体行为对WiFi信号传播路径的影响,对人体的位置,动作,身份的被动式感知技术(无需人携带任何设备)已经成为了当前普适计算领域的研究热点之一。论文聚焦于人体自由行走状态下
为了研究新型固化剂改良黄土的抗冲刷性能,采用自主研发的抗冲刷试验设备,以素黄土为对照组,考虑龄期、压实度以及掺量的影响,对新型固化剂改良黄土进行系列抗冲刷试验研究。结果表明:自主研发的抗冲刷试验设备能够提供不同的稳态流速和恒定水压,并可对流速和水压进行实时监测,能够满足研究需要;与素黄土相比,新型固化剂改良黄土的抗冲刷性能明显提高,抗冲刷强度提高了约492倍;新型固化剂改良黄土的抗冲刷性能随龄期的
随着全球环境污染和能源问题的日益严重,微电网作为消纳可再生能源的一种重要形式得到了迅速发展。随着直流负荷的日益增多,交直流混合微电网应运而生,其能够直接对交、直流负荷进行供电,从而对微电网的建设成本和换流损耗产生一定的影响。在微电网运行控制中考虑柔性负荷调度,通过供需双方的互动,配合储能系统平衡供需间的功率差额,可以优化系统的配置容量,提高经济性。因此,本文在对交直流混合微电网系统容量优化配置进行