基于改进聚类算法与过采样结合的异常检测研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:liongliong451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和技术不断的更新迭代,互联网中也充斥着种类繁多、数目巨大的数据,如何分析处理网络中杂乱无章的数据并获取相关有价值的信息是当今的重要研究内容。近年来,异常检测已经成为许多学者重点关注的一个研究问题,在异常检测领域中,针对不平衡数据的识别检测是当中的一个研究热点。不平衡数据指的是在异常检测中,数据集之间的样本比例相差大,正类样本数量远超负类样本的数量。如果面对不平衡数据集不采取相关处理措施而直接进行异常检测,那么检测的结果将会变得不可靠,从而导致检测模型的失效。本文针对异常检测中的不平衡数据集问题,采用聚类与过采样技术结合的方法进行处理。先通过K均值聚类算法对少数类进行聚类,从而得到少数类区域的范围,再利用合成少数类过采样技术对少数类进行过采样从而增添少数类样本使数据集的样本达到平衡。在此基础上,本文针对K均值聚类算法与合成少数类过采样技术的问题提出了不同的改进策略,主要的工作如下:(1)提出一种基于果蝇优化算法的聚类改进算法BFOA-K。该算法针对K均值聚类算法在聚类过程中对聚类中心敏感和容易陷入局部最优问题,依赖果蝇优化算法杰出的果蝇个体,易寻找最优值的优点,提升K均值聚类算法的聚类效果。利用F分布策略避免聚类过程中过早陷入局部最优,同时采用精英种群策略提升果蝇的寻优能力,有效改善了K均值聚类算法对初始聚类中心敏感的问题。(2)提出一种改进聚类算法和合成少数类过采样技术结合的异常检测算法BFOA-KSMOTE。为解决异常检测中样本不平衡问题,使用K均值聚类算法和合成少数类过采样技术生成新的少数类样本以平衡数据集。针对合成少数类过采样技术对边缘样本分布敏感,导致生成样本质量不高的问题,使用改进后的K均值聚类算法先对少数类进行聚类,同时采用异常容忍度策略剔除边缘样本,消除边缘样本的影响以更好的选择过采样的原始样本。(3)验证本文提出的算法在针对异常数据与正常数据不平衡问题的有效性。采用多个数据集对提出的两个改进算法进行仿真实验,以多重标准验证了改进聚类算法和改进过采样算法的有效性。
其他文献
重金属污染是一个全球性的棘手问题,真菌在修复含重金属废水方面具有广阔的潜力。本文通过基因组、蛋白组和代谢组三个组学对一株强耐铬海洋真菌Penicillium janthinellum P1进行了详细研究。(1)通过对真菌模型种的系统发育分析,估计P.janthinellum P1和Penicillium oxalicum 114-2的进化分歧时间为74 MYA。通过anti SMASH软件鉴定出3
学位
随着社会的迅速发展,人们对各种高新技术材料的需求剧增,越来越多的人开始致力于研发高性能的有机半导体或导电材料。其中,“空穴”型(p型)有机导电材料的研究已取得了很大的进展,其最高电导率超过1000 S/cm,性能接近无机材料水平;相比之下,电子型(n型)有机导电材料的发展则较为缓慢,尤其电导率还有待进一步提高。优化途径主要包括:一方面是进行分子骨架设计和侧链修饰,分子共轭骨架决定了材料的能级、分子
学位
农药可控制农作物病害和虫害并保证作物高产优质,长期使用农药会导致其在环境中大量残留,并易向非靶标生物迁移累积,影响农产品质量安全以及生态环境安全问题。植物根际环境中丰富的微生物群落可提高植物抵御环境胁迫的能力,在农药残留修复中具有重要作用,然而目前对农药-植物-根际环境三者之间相互作用的研究较为缺乏。代谢组学可通过检测代谢物变化阐明生物组织在各种胁迫下的应答。因此,本论文基于代谢组学分析策略与多组
学位
本文基于萘醛,香豆素,苯并噻唑三种荧光团设计并合成了5个荧光探针,分别用于镓离子(Ga3+),一氧化碳(CO),次氯酸(HClO),水合肼(N2H4)的特异性检测。通过核磁共振、质谱等手段对其结构进行了表征,并通过紫外-可见光谱和荧光光谱等方法对探针的检测性能进行了研究。1、通过2-羟基-1-萘醛和L-丝氨酸之间的席夫碱反应设计并制备了3-羟基-2-[(2-羟基-萘-1-基亚甲基)-氨基]-丙酸(
学位
湛江组黏土具有强结构性和强触变性,扰动后结构损伤与静置后结构恢复过程中土体的应力-应变关系复杂,传统的本构模型对湛江组黏土存在适用性问题。研究湛江组黏土扰动损伤与触变恢复的本构关系对湛江组黏土地基强度和变形计算具有重要的理论意义。通过开展湛江组黏土原状土以及在不同养护时间的重塑土三轴固结排水试验,分别建立了原状土的结构损伤模型和重塑土的触变恢复模型,并对模型的有效性进行验证。主要的研究工作及结论如
学位
随着网络和信息技术的快速发展,各种各样的信息呈量级剧增,过量的信息已经严重影响了用户对信息获取的准确度,聚类算法和推荐算法的出现就有效地缓解了这一问题。通过聚类分析将相关性高的信息聚集成类,再把有用的信息推荐给用户。模糊C均值聚类(Fuzzy C-Means Clustering,FCM)算法能够对现实中没有明确界限的数据集进行有效聚类,但它存在着对数据进行初始聚类时,无法确定聚类中心的问题。协同
学位
金属有机分子筛材料(MOZs)作为金属有机框架材料(MOFs)的一个分支,是利用金属离子和配体之间的配位模拟沸石这一结构特点发展而来的,集成了沸石和MOFs的优点,比如优异的稳定性和高的比表面积等,在诸多方面都有潜在的应用前景。已报道的结构中,合成方案采用有机胺和醇的组合,酰胺溶剂,较大的有机分子等可以调控出新颖的拓扑,不过普适性都有待提高。本文以较为廉价的二甲亚砜(DMSO)作为溶剂来合成新颖的
学位
在许多分类任务中,需要大量的已标记样本才能达到满意的分类精度。然而对样本进行标记需要大量的专业领域知识以及昂贵的标注成本,导致在实际应用中存在大量的未标记样本。因此如何利用未标记样本的信息去提升分类性能,这为传统的机器学习算法带来了巨大挑战。主动学习是一种能够解决传统分类问题中样本缺失标签信息问题的机器学习方法,该方法通过迭代选择最有价值的未标记样本进行标记,可以获得较好的分类性能,这引起了大量学
学位
在绿色、低碳、节能的时代背景下,“绿色建筑”热潮正席卷全球,绿色建筑评价体系作为规范和引导绿色建筑的重要举措,近年来发展迅速。当前,我国在《绿色建筑评价标准》的基础上逐步探索了不同类型的建筑评价标准,如绿色工业建筑、绿色学校建筑、绿色医院建筑评价标准。当前,我国已步入老龄化社会,随着人口老龄化程度不断加深,我国已初步形成居家为基础、社区为依托、机构为补充的养老服务体系。机构养老建筑作为养老事业的重
学位
随着深度学习技术的快速发展,情感识别受到广泛关注,在人机交互、在线教育、医疗健康、安全驾驶和智慧交通等领域得到广泛应用。其中表情作为情感最基本的外在表现,在人类与外界进行交流时,表情传达了约55%的情感信息。然而表情容易受主观意识影响,而被遮盖或隐藏。相比之下,生理信号受神经系统等控制,不为意识所影响,能够真实客观反映情感状态。然而生理信号采集过程中需要佩戴设备,在一定程度上会对诱发的情感产生干扰
学位