基于集成机器学习模型的无监督异常检测方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:fox_pop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们不再为数据匮乏而感到困扰,反而越来越关注数据的质量问题并开始探讨从大量数据中提取最有价值信息的方法设计与理论研究。作为该系列研究的重大研究课题之一,异常检测侧重于检测和识别数据集中与大部分样本存在显著差异的异常样本,已成为在网络安全的入侵检测、机器设备的故障检测、医疗图像的癌变细胞识别、金融行业的信用卡欺诈检测等多个领域的热门研究话题。目前大多数的异常检测研究专门针对某个领域的特定异常类而设计,因此无法同时实现对不同领域的多种异常类的有效检测,从而具有较差的泛化能力。事实上,在实际应用场景中大部分异常类并不能事先获取,在其检测过程中甚至会出现多种未知的新异常。算法的泛化能力在异常检测中显得尤为重要,设计一种具有更高泛化性能的算法以适应于不同领域不同类异常的识别与检测是一项具有重要意义的任务。集成学习结合多个算法的优势来取得比单个算法更好的泛化性能,该技术在传统机器学习分类和聚类问题中展现了非常好的效果并已被验证可有效提升算法的泛化能力。而集成学习应用于异常检测的技术(简称“异常集成”)目前仍处在发展阶段,异常检测中数据类别极端不平衡和数据标签缺失是阻碍其发展的主要原因。现有研究成果通过使用集成的思想来提高某个或多个异常检测算法的泛化性能,将异常集成当成一个简单的结果组合问题,忽略了检测模型的训练过程,从而仅有有限的泛化能力。为了进一步提升异常集成算法的泛化性能,本文重点关注异常集成中基本检测模型的训练过程,从集成数据准备、集成模型训练、集成模型组合以及集成学习框架四个方面进行了系统的研究与分析。本文主要创新点概括如下:1)从数据源中选取最具代表性的正常样本集作为异常集成组件的训练数据是确保算法鲁棒性的必要手段。本文提出了一种基于集成的联合训练方法以实现样本预处理和异常评分的多次迭代优化。该方法为异常检测构建了一个涵盖样本权重计算和样本异常评估的优化模型。其中,后者得到的异常分值可用于指导前者样本权重的计算(即高异常概率的样本赋予小的权重),前者生成的具有不同权重大小的数据样本集可有效避免后者训练过程因异常样本干扰而产生的性能衰退。首先,为目标函数设计了一个基于先验知识的正则项以辅助样本的权重计算。其次,为尽可能实现异常样本具备比正常样本更高的异常分值,提出了一种基于异常分值的铰链损失函数。最后,提出了一种交替迭代方法对该集成模型进行优化求解。在多个异常检测数据集上的实验结果表明本文的方法相对于流行的算法有很大的泛化性能提升。2)在模型训练过程中考虑算法多样性需求是构建一个好的集成算法的有效途径。本文提出了一种基于多样性感知的序列集成方法,通过提升模型多样性来提高算法的异常检测效果。该方法将集成多样性分为两个部分:样本多样性和模型多样性。对于样本多样性,使用了子采样技术以实现样本初级阶段的多样性生成。对于模型多样性,设计了一种基于集成的优化模型以进一步提高集成组件的多样性。此外,提出了一种无监督的多样性度量方法以实现多样性量化评估,设计了一种异常剪枝策略以消除训练过程可能的伪异常样本。通过对样本多样性和模型多样性的同步提升,基本检测器模型能够取得更好的多样性和准确性以构建更优的异常集成算法。在多个数据集上与多种算法的对比实验中本文的方法展现了更好的异常检测效果。3)在模型组合过程中实现对多个集成组件结果的合理分配是提高集成算法最终性能的关键技术。本文提出了一种基于双层集成的无监督异常检测算法,可进一步提升算法的泛化性能并减少由子空间采样造成的信息损失。该方法提出的两层组合策略包括两个组成部分:内部集成和外部集成。第一层是内部集成用于减少信息损失,第二层是外部集成用于增强泛化能力。此外,为了实现第一层模型的再训练,设计了一种多样性损失函数。为了确保第二层组合的有效性,提出了一种新的加权组合策略。通过采用基于双层组合的学习策略,本文的方法无论是在高维和低维数据集亦或是大样本和小样本数据集中均表现出不同程度的泛化性能提升。4)在学习框架中实现对数据预处理技术、模型训练技巧和模型组合策略三个部分的联合优化是进一步提高异常集成算法泛化性能的必要条件。本文设计了一种基于积极模型的无监督序列集成框架以实现这三个组成部分在统一学习框架中的同步或迭代优化,并提出了一种基于非度量局部异常评分的自适应集成方法来实例化该框架。首先,采用基于卡方分布的样本采样方法来初始化参考模型。其次,提出了一种基于加权马氏距离的非度量异常评估方法,具体通过计算多个特征子集的局部距离的加权和来近似全局距离,以获得模型训练阶段最终的异常分值。最后,设计了一种基于异常排序的自适应组合策略以有效组合多个集成组件的结果。从多组对比实验可知,本文的方法不仅在常见的静态数据集上呈现了显著的泛化性能提升,而且在最新的动态数据集上也展现了一定的发展潜力。总的来说,本文重点关注集成的四个重要组成部分,即集成数据准备、集成模型训练、集成模型组合和集成学习框架,深入分析了每个组成部分面临的挑战和存在的不足,设计了一系列异常集成算法,提出了一种通用的序列集成框架,并取得了良好的异常检测性能。本文的研究思路以及所获得的相关研究成果对于该领域未来的深入研究有很好的参考价值。
其他文献
电磁波吸收材料是防治电磁波辐射污染的关键材料。水泥是当今建筑行业应用最大宗的基础材料,研发新型高性能水泥基吸波材料对于解决室内电磁波污染具有重要意义。近年来,国内外学者在提高水泥基复合材料的微波吸收性能以及拓宽其应用频段等方面进行了大量的探索,但仍然存在材料微波吸收性能低、吸波带宽窄、密度大等共性问题。吸收剂的介电常数和磁导率是主导水泥基吸波材料电磁波吸收性能的关键参数,而吸收剂的组成、结构、粒度
超级电容器具有充放电速率快、功率密度高和绿色安全等突出优点,在新能源汽车及工业节能减排等领域显示出巨大应用前景。电极材料是电荷存储和电子传输载体,是决定电容器性能的关键因素之一。多孔炭材料具有来源广泛、成本低廉、比表面积高和孔道结构可调等优点,是商业化最早也是应用最广泛的电极材料,但受限于储能机理,存在能量密度偏低问题,限制了超级电容器的大规模应用。如何通过比表面积调控、孔道结构设计和功能组分有效
随着我国现代化进程的日益发展,城市聚集了大量人口、财富和基础设施,当遭受地震、海啸等极端破坏的情形下,会造成巨大的人员伤亡和财产损失。供水管网系统是城市生命线工程的重要组成部分,当其遭受破坏丧失供水功能时,不仅影响居民的基本生活需求,而且对于灾后重建及社会生产也会产生负面影响。因此,供水管网的安全性和可靠性是城市灾害防御能力的重要反映,评估供水管网的脆弱性,发现脆弱部分,进而对脆弱部分进行改造,对
从钙钛矿作为光电材料所具有的光学和电学上的理化性质出发,分析钙钛矿太阳能电池(PSC)的自发明以来经历的研究历程。根据钙钛矿电池的基本结构,阐述一种新型太阳能电池的光电转换过程,异质结型PSC在稳定性和使用寿命、成本控制等方面需要改善的问题,同时基于这些问题综述目前部分中国研究者对于PSC的研究。
不断增长的能源需求和日益严重的气候变化推动了可再生资源的发展,开发以生物质和CO2为原料合成化学品的工艺成为热点,近些年得到快速发展。但是,目前这些工艺路线存在产物收率低、生产成本高、反应效率低等问题,制约了其工业化进程。通过概念设计和工艺模拟建立这些工艺路线的生产模型,检验其技术可行性,进而通过技术经济分析和生命周期评价等方法探索其能源消耗、经济成本和温室气体排放等方面的优势与不足,识别发展过程
NAD+依赖的氧化还原酶具有高催化活性、区域选择性和立体选择性,是制药工业、精细和专用化学品领域生产手性化合物的研究及开发热点。基于序列和结构信息的理性设计以及定向进化,已成为酶工程领域的核心技术。学位论文围绕酶催化循环过程描述:底物迁移和识别、催化反应和产物释放,开展理性设计苹果酸酶、丙氨酸脱氢酶和meso-2,3-丁二醇脱氢酶的研究工作,结果如下:(1)以苹果酸酶(EC 1.1.1.40)为对
随着海洋资源的开发和沿海水域航运的发展,船舶与海上及近岸结构物间碰撞的风险日益增长。船舶碰撞不仅会导致巨大的经济损失甚至人员伤亡,还对海洋环境、海洋生态等造成严重危害。浮筒链式防撞系统作为一种典型的浮式防撞系统,既能保证被撞结构物的安全,同时兼具船舶友好性、水深和地基适应性强、构造简单方便等优势,极具应用前景。但浮式防撞系统提出的较晚,相关研究非常有限,尤其是关于其海上生存能力、拦防船舶机理、防撞
混凝土面板堆石坝(简称面板坝)具有整体断面小、施工进度快和复杂地形适应性好等显著优点,深受坝工界青睐,已成为高坝建设的首选坝型。近年来,随着国家“西部开发”、“一带一路”等重大战略的深入推进,一批世界级高坝大库正紧锣密鼓地规划筹建,如古水、拉哇、大石峡、茨哈峡等。但这些高坝地处我国西部强震区,设防烈度高(不低于8度)。大坝建成后将长期运行(甚至超百年),服役期遭遇强震的概率较高,存在强震破损风险。
预应力自复位(Post-tensioned self-centering,以下统称PTSC)混凝土框架是预制装配式建筑的一种,它采用无粘结预应力筋将预制梁柱紧压在一起,梁柱接触面在受拉方向不采取任何约束方式,使得构件可以在节点转动过程中相互分离,节点的非线性变形集中在梁柱交界处产生的张开角中,避免了传统现浇节点中受拉纵筋的屈服和梁端塑性铰的形成。采用附加的阻尼装置满足结构的耗能需求,从而将非线性滞