基于鲁棒稀疏编码和堆栈鲁棒稀疏自编码器的异常检测

来源 :河北大学 | 被引量 : 0次 | 上传用户:Monking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测(novelty detection)是机器学习和模式识别领域中的研究热点,它能够成功地辨识出测试集中未参与训练的异常数据。在实际应用中,异常数据在训练过程中往往缺失、数量稀少或尚未明确定义。因此,单类分类器(one-class classifier)适用于处理该类问题。然而,与两类分类及多类分类情形类似,单类分类器也需要克服“维数灾难”难题,即同一分类器为了获得相同的泛化性能需要的样本数目随维数的增加而呈指数级增长。为了解决异常检测所面临的维数灾难问题,一种可行的策略将高维样本投影到低维子空间,这恰好是机器学习中的特征提取。所以,特征提取的有效性是异常检测方法在处理高维数据时成功与否的关键。近年来,稀疏编码和稀疏自编码器作为两种流行的特征提取方法,得到了大量的研究与关注,稀疏编码可以有效地减少特征集的冗余度,而稀疏自编码器可以提取样本的抽象特征,两者均可以提高传统异常检测方法的分类性能并解决维数灾难问题。本文对传统的稀疏编码及稀疏自编码器进行了改进,使改进后的相应方法更适用于解决异常检测问题,主要工作包含以下两个方面:1.提出了基于相关熵和Log型惩罚函数的鲁棒稀疏编码。传统的稀疏编码仅适用于处理高斯噪声,当训练集中所含噪声服从非高斯分布时,稀疏编码无法取得精确的系数向量。为了使稀疏编码更适用于处理非高斯噪声,同时提高系数向量的稀疏性,使用相关熵代替稀疏编码的重构误差项,并引入Log型惩罚函数代替l1范数作为正则化项,进而利用所得系数向量作为异常检测方法的输入。此外,给出了所提鲁棒稀疏编码的泛化误差界,并在UCI基准数据集上验证了所提方法的有效性。2.提出了基于Transformed-l1惩罚函数及l2,1范数的堆栈鲁棒稀疏自编码器。传统的稀疏自编码器采用KL散度作为其正则化项,需要人工设置其稀疏性参数。为了避免人工设置参数带来的不确定性,利用Transformed-l1惩罚函数和l2,1范数的组合型正则化项代替传统稀疏自编码器中的KL散度,其中Transformed-l1惩罚函数可以消除自编码器中神经元之间的冗余连接,而l2,1范数能够剔除多余的神经元,进而有效减少模型参数并提高训练效率。然而,仅含一个隐藏层的自编码器在完成特征提取时,所获得的低维特征具有欠佳的表征能力。因此,在所提鲁棒稀疏自编码器的基础上,建立了堆栈鲁棒稀疏自编码器。为了充分利用堆栈鲁棒自编码器所获得不同层次的特征,引入了集成学习的思想,使用这些不同层次的特征训练多个单类分类器,并通过投票策略最终确定样本的输出值。最后,在MNIST手写数字数据集和UCI基准数据集上验证了所提方法的性能。
其他文献
孙应鳌是明代贵州清平卫人,是一位著名的心学官员,同时也是明代杰出的教育家、思想家,学者称之为“淮海先生”。莫友芝称他为:“以儒术经世,为贵州开省以来人物冠,即以词章论,亦未有媲于先生者。”笔者主要从以下四个部分对孙应鳌的思想和为政活动进行详细的论述:第一部分,论述出自“黔中王门”的孙应鳌。简单概述明代阳明心学,再详细论述包括孙应鳌在内的明代“黔中王门”中的重要代表人物。第二部分,主要阐述孙应鳌的心
中华人民共和国2012年4月16日发布的《中共中央国务院关于分类推进事业单位改革的指导意见》(下称指导意见)是事业单位分类改革的依据。指导意见进一步清晰事业单位分类改革
大型储油罐是指由罐壁、罐顶、罐底及油罐等附件组成,储存原油或其他石油产品容量为100立方米以上的大型容器。大型储油罐是储存油品的容器,它是石油库的主要设备,主要用在炼
支持向量机(Support Vector Machines,SVM)作为机器学习领域中的一种强分类算法,为科学研究和具体应用提供了充分的理论支持。然而由于铰链损失自身的结构特性,当分类数据中存在噪声时,传统支持向量机的分类效果会明显降低,极大地削弱了自身的优势。因此为了解决传统支持向量机对噪声数据敏感的问题,从改进损失函数的角度,依次提出了三种不同的损失函数。从其自身结构可以得出:提出的这三种损失
课题组前期研究表明:莲子直链淀粉与不同链长、饱和度的脂肪酸在超高压条件下可得到具有热稳定性和抗消化等特性的V型复合物,为淀粉与脂类物质的复合提供了理论依据。但由于
在“讲好中国故事,传播中国声音”的背景下,翻译与海外中国形象构建成为中国翻译研究的热点。汉学作为一种“他者”视角与海外中国形象的构建有着天然的联系,最初的海外中国
单类支持向量机被认为是最常用的单类分类器。与传统的单类支持向量机相比,最小二乘单类支持向量机(least squares one-class support vector machine,LS-OCSVM)能够更加准确地描述新样本与训练集的相似度。然而,LS-OCSVM对训练集中的离群点(outliers)非常敏感,其根本原因在于离群点对应的平方误差函数值较大,从而使得LS-OCSVM会更多地偏向
架空索道作为山川景区及城市观光的重要交通工具,其运载乘客的安全性至关重要。托、压索轮组作为索道的重要组成部分,分别起支承承载及下压张紧钢丝绳的作用。当带载钢索以一
合作问题解决(CPS)能力,是学生在信息化社会要掌握的关键能力之一。PISA2015的测试结果显示,中国学科教学与合作问题解决的结合程度有待提高。教科书是教师教学的主要依据。在新一轮人教版初中教科书修订工作已启动的背景下,进行教科书中CPS内容的国际比较研究,了解我国数学教科书中CPS内容编写的优势与不足,对提升我国数学教科书中的CPS内容质量,培养学生的CPS能力具有重要意义。主要研究问题为:(
SO2作为燃煤烟气产生的主要污染物之一,危害着人体健康和环境安全。另一方面,我国硫资源短缺,而SO2是制备硫磺和硫酸的重要原料,直接排放也造成了资源浪费。离子液体(ILs)是