基于熵增量和局部属性加权的最优子空间离群点挖掘算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:qq664374004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据挖掘技术成为了当下炙手可热的研究对象,其中离群点挖掘技术作为数据挖掘领域中的重要组成部分,也得到了广泛的关注和探索。离群点挖掘技术依靠其独特的机制和有价值的信息在数据发展智能系统领域中发挥了重要作用。目前,离群点挖掘已广泛应用于欺诈挖掘、医疗诊断、公共安全等领域,国内外专家学者也提出了不少许多离群点挖掘的具体方法。本文针对高维数据集下,离群点挖掘表现出的局限性和不稳定性等问题,提出了改进策略,分别从子空间聚类和离群值挖掘两个方向进行研究,主要分为以下几个方面。首先,针对高维数据集下挖掘效率不高的问题进行改进。在数据预处理阶段进行最优子空间查找,通过维度熵对数据集维度进行初步筛选,过滤掉冗余属性,得到挖掘离群点的优子空间,然后根据互信息能描述维度间的相关性的特点重新刻画了一个衡量子空间聚类优劣的指标,优化聚类子空间的目标函数,得到最优子空间。在离群点挖掘阶段根据去一划分信息熵增量的思想提出熵离群分数作为度量指标,在最优子空间中进行离群点挖掘,提出了一种基于熵增量的最优子空间离群点挖掘算法,并对算法的正确性和复杂性进行了分析。其次,针对当前基于密度的离群点挖掘算法在挖掘阶段存在的局限性,进行深入研究。在利用信息熵查找到最优子空间的前提下,在离群点挖掘阶段,通过维度信息熵确定数据对象的离群属性,定义加权距离对数据对象间的距离进行描述,并给出了加权k距离、反向加权k距离、加权k邻域等相关定义,最后,引入高斯核函数刻画数据对象的邻域核密度,进一步刻画数据对象的离群程度,提出了一种基于信息熵的局部属性加权的离群点挖掘算法,并对算法的正确性和复杂度进行了分析。最后,在UCI真实数据集上对本文提出的两种算法进行了验证,并分别与其它相关的离群点挖掘算法进行了对比实验,验证了算法的有效性。
其他文献
视觉目标跟踪作为计算机视觉领域重要的研究方向之一,被广泛应用于视频图像监控、医疗重构等多个领域,具有重要的研究价值和意义。相比传统的目标跟踪方法,基于孪生网络的目标跟踪方法在跟踪准确度和精度方面表现出绝对的优势。但是在面临复杂的跟踪场景,例如运动目标发生尺度形态变化、背景遮挡时,仍然会出现跟踪失败的情况。因此,构建出具有高效且鲁棒的目标跟踪网络架构仍然是一个具有挑战性的任务。针对现有目标跟踪方法存
光伏发电、风电等新能源发电系统的快速发展以及直流微电网的出现丰富了电力系统的运行结构,实现了电力能源在空间上的多样化配置,但无疑对现有成熟的电力系统的稳定运行带来了挑战。因此现如今直流微电网已逐渐成为研究者关注的热点,但相关研究中其结构还是以单条直流母线为主,同时其中所使用的双向直流变换器是以非隔离型为主。为实现多条直流母线的直流微网子模块网之间能量的双向流动,以及隔离型双向直流变换器的应用需求,
多电平变换器以其谐波含量低及开关应力小等优势,在新能源发电和列车牵引系统等领域具有重要应用。相较于钳位型变换器,级联型多电平变换器在大功率场合应用广泛。为了解决传统三相级联型多电平变换器中性点问题,本文研究了一种三相混合级联型多电平变换器拓扑,该结构有效减小了变流器的体积,且易于实现系统的模块化运行。本文首先详细介绍了三相混合级联型整流器的拓扑结构及工作原理,并建立了开关数学模型,采用载波相移调制
使用计算机模拟自然场景,一直是计算机图形学领域的重点研究课题。雾作为一种常见的自然现象,是图形学研究的重点之一。因为雾不仅与人们的生产生活密切相关,也被广泛应用于影视、游戏等领域,提高场景的真实感。由于雾的形态多变、光学特性复杂,所以真实模拟逼真的体积雾变得十分困难。针对目前雾效模拟方法真实感差,体积光照效果缺失的问题,在雾密度函数进行改进的基础上,提出一种基于单次散射的体积雾实时绘制算法,真实高
从网络角度出发,当前的软件系统不论是从规模还是复杂度来说,都在以惊人的速度急剧增长,由此而引发软件质量安全问题一直以来都是科研人员关注的重点问题,因此对软件网络的理解和度量、挖掘软件网络中可能被忽略的关键节点,对维护软件安全和对软件进行有效管理均具有重要意义。本文应用复杂网络理论对软件网络进行度量,识别关键性节点并对其排序,主要工作如下。首先,为了得到不同状态下的软件结构信息,分别对静态软件结构和
污水处理直接影响着民生民态,是各个国家面临的重大问题。青山绿水是我们国家一直坚持的生态目标,水处理也成为国家紧迫性的生态治理任务之一。水处理中的消毒环节可以去除或灭活我们日常用水中的致病微生物,从而防止水源性疾病的传播,因此对我们的日常用水非常重要。首先,本文阐述了本课题研究背景与意义,详细介绍了高压脉冲变换器的拓扑分类和国内外相关工业产品,并简要分析了高压脉冲变换器的应用领域,重点阐述其在水处理
汽车行业在经济发展进程发挥着重要的作用,但随着社会中汽车保有量的增加,尾气成为了城市空气的污染源之一。电动汽车因其环境友好的特点在节能减排和缓解城市污染方面发挥着重要作用。大规模电动汽车的无序充电行为会加剧电网波动,影响电网的安全稳定运行。本文通过研究智能电网与电动汽车间的交互关系,建立了电动汽车参与智能电网需求侧响应的充电负荷优化调度模型,在满足电动汽车充电需求的同时,通过合理规划充电负荷降低电
化石能源的储量缩减促使着太阳能、风能及氢能等可再生能源的发展,推动着含有可再生能源的微电网系统的研究。氢燃料电池因具有清洁高效、可搬运等优点在微电网系统中备受青睐,但其响应特性慢,在微电网系统中也会受到变换器传输效率的影响。为解决燃料电池在微电网系统中的特性问题,本文建立了基于部分功率变换的燃料电池/蓄电池联合供电系统并进行研究。首先,文中分析了燃料电池/蓄电池联合供电系统的结构。分析部分功率变换
相比硅基器件,GaN高临界电场使其具有低栅极电荷和低导通电阻特性,是其实现高效、高功率密度的主要因素,使GaN在诸如光伏、电动汽车等低于650V的高频应用中受到广泛关注。针对可应用于车载充电器(On Board Charger,OBC)系统中单级隔离型双向AC-DC变换器拓扑,文中结合GaN及其在该结构中应用的关键技术进行研究。针对单相图腾柱PFC与双向变换器构成的级联系统,通过桥臂复用,提出一种
随着智能监控设备技术的应用,3D增强现实虚拟场景技术的规模化普及和实施产生了大量系统性的空间数据,因此有效的数据查询处理技术成为了研究的重点。其中可视组k近邻查询与可视组反向k近邻查询研究成果重点应用于生物特征识别、网络游戏领域。现有的研究大多应用在二维空间,而且在三维空间中只是针对单一查询点,没有考虑多个查询点情况。但是在现实生活中存在许多对于多个位置的查询点可视组k近邻查询问题。例如多个不同位