基于深度自编码器的数据异常检测算法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:xiaogaojuanJUAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据异常检测是数据挖掘领域的研究热点,已被广泛应用于金融欺诈检测、网络入侵检测、设备故障检测、医疗分析以及气象预报等领域。因此,对大量数据中的少量异常数据进行精准检测,具有十分重要的理论和实际意义。本论文针对传统机器学习方法在高维数据异常检测上表现差,可扩展性差,特征提取复杂性等不足,在深度神经网络基础上,提出了基于深度自编码器的数据异常检测算法。同时,为了能充分利用在实际数据异常检测场景中存在的少量标签数据并有效提升模型检测性能,设计了基于深度自编码器的半监督数据异常检测算法。具体研究内容和结果如下:(1)基于深度自编码器的数据异常检测研究。在原有自编码器的基础上,提出了一种基于深度自编码器的数据异常检测算法,利用主成分分析的思想,将输入数据分为正常数据(干净)部分和异常数据(肮脏)部分,正常数据部分由自编码器重建输出,异常数据部分由近端优化方法优化输出,再采用交替方向乘子法的方法来训练整体模型。将设计好的深度自编码器模型与传统机器学习及常规自编码器模型进行对比实验,结果表明:深度自编码器模型无需只含正样本的数据集就可以有效进行模型训练,其综合表现高于传统机器学习模型和自编码器模型,AUC值在4个数据集中达到最优。(2)基于深度自编码器的半监督数据异常检测方法研究。为了充分利用实际数据异常检测场景中存在少量标签数据,对深度自编码器模型进行改进,构建基于深度自编码器的半监督数据异常检测模型。将标签数据中的正样本数据用于优化自编码器参数,最小化正样本的自编码器重构误差;负样本数据用于调整超参数lambda,最大化负样本的自编码器重构误差。实验结果表明:在训练数据中存在少量标签数据的情况下,半监督的深度自编码器模型不仅提高了模型调参效率,而且在数据异常检测效果方面还优于深度自编码器模型,其在Mnist数据集上AUC值提高了1.06%,在Optdigits和Pendigits数据集也有明显提升。(3)深度自编码器的实际应用研究。基于深度自编码器模型,对预处理后的产线数据进行数据异常检测。通过对比实验分析,DAE模型的AUC值比AE方法提高了2.89%,比OCSVM方法提高了12.06%。
其他文献
区域立法作为地方间立法机关合作立法的一种方式,实践中已有部分地区开始了尝试,尤其是长三角、京津冀区域,这些立法机关在环境保护领域率先开展了区域立法合作,主要集中在有关大气污染防治地方性法规的制定上,但是由于区域立法没有明确的法律地位,在初期实践中往往存在立法程序松散、立法内容差异较大的情况,随着区域立法的不断深入,经验的累积,京津冀在协同立法上实现了区域立法的内容的高度协同。区域立法从发展初期问题
学位
本课题以净化水产养殖污水为目的,主要围绕光催化膜(PF)协同微藻处理水产养殖污水展开研究,探讨了二者协同作用于水产养殖污水的可行性及强化二者的处理条件,为构建基于微藻培养的水产养殖污水处理技术提供一定的基础理论信息。研究结果如下:1、利用SEM(扫描电镜)、XRD(X射线粉末衍射)、UV-Vis DRS(紫外-可见漫反射吸收光谱)来表征PF可知,光催化剂较好的附着在相互交错的纤维上;将Ti O2和
学位
目的 探讨低温等离子体(Non-Thermal Plasma,NTP)对人喉乳头状瘤细胞的影响及机制。方法 人喉乳头状瘤细胞株Hs840.T重悬细胞后分为A组(正常培养的Hs840.T细胞株)、B组(正常培养的Hs840.T细胞株经NTP干预2 min)及C组(正常培养的Hs840.T细胞株经NTP干预4min)。采用细胞计数试剂盒-8方法检测各组细胞存活率;流式细胞仪检测各组细胞凋亡率;免疫印迹
期刊
随着科学技术的发展,我国已经全面进入了大数据时代,不论是阅读、作业等方式都从传统的系统化学习,逐渐转化为了将碎片化、系统化学习互相结合的学习形式,这也促使越来越多的教师开始通过信息化技术的手段,针对教学过程中的重、难点进行解决,这在很大程度上提升了教学效率。而在初中语文的作业设计过程中,巩固阶段的学习至关重要。因此,本文针对信息化背景下初中语文作业设计展开探讨分析,希望为相关人员带来一些参考借鉴。
期刊
随着全球变暖和城市化进程的加快,城市区域的热环境问题日益凸显。位于海峡西岸中心城市、中国(福建)自由贸易试验区的福州,自改革开放以来,经济发展迅速,人类剧烈的活动,导致城市原本的自然地表逐渐被人工表面取代,城市夏季温度屡创新高。本文以快速城市化进程中的福州为研究对象,基于遥感、地理信息系统和地统计学方法,系统梳理近20年来,福州城市下垫面在土地利用/覆盖、景观格局上的变化特征和状态,定量分析不同下
学位
随着工农业进程的加快,环境问题尤其重金属污染问题日益突出。工业“三废”、污水灌溉以及农药化肥的不合理使用使得砷、镉、铬、铅、汞等重金属元素进入水、土壤等环境中,并在食物链中发生富集和迁移,严重危害食品安全。近些年来,粮食中重金属污染重大事件频发,成为国内外高度关注的公共安全问题。其中,砷被世卫组织列为“引起重大公共卫生关注的十种化学品”之一,属于一类致癌物。无机砷是粮食作物中最主要的超标重金属元素
学位
节段拼装桥墩具有施工工期短,预制节段施工质量可控等特点,近年来受到越来越多的关注。目前对于节段拼装桥墩抗震性能方面的研究已经成为一个热点,而对其在受压状态下的计算仍参照现浇墩,其力学性能、损伤机理、破坏模式等仍不明确。另外,装配式桥墩和整体现浇桥墩最大的不同就是接缝处的混凝土不连续,接缝处刚度较现浇墩低,为受力薄弱位置。为此提出一种内置钢管混凝土剪力键的混合接头连接节段拼装桥墩,并进行受压性能试验
学位
植被群落广泛的存在于河道、湿地、海岸等生态系统中,但其并非孤立存在,相邻植被群落会相互影响,水流结构更为复杂。研究相邻植被群落作用下的水流动力特性能更准确的揭示植被与水流的作用机理,同时其研究结论也可为河道整治、景观设计、生态修复提供理论基础。本文基于物理模型试验、理论分析以及数值模拟,探讨相邻植被群落密度、间距以及淹没度对水动力特性的影响,主要研究内容及成果如下:(1)研究并列相邻植被群落对流速
学位
本文探讨经阴道三维超声在宫角妊娠与输卵管间质部妊娠鉴别中的价值。回顾性选取宫角妊娠患者55例,输卵管间质部妊娠患者60例,比较两者超声图像特征、定量参数的差异。宫角妊娠者孕囊外凸、宫腔完整比例、滋养层动脉舒张末期血流速度(EDV)明显低于输卵管间质部妊娠者(P<0.05),而周边肌层完整、子宫内膜包绕或紧邻比例、孕囊周边肌层包绕厚度、滋养层动脉阻力指数(RI)明显高于输卵管间质部妊娠者(P<0.0
期刊
近年来,蒜价呈现“过山车”式波动,频频出现“蒜你狠”、“蒜你惨”现象,这严重影响大蒜产业的发展。在大蒜交易中,由于大蒜产地和上市时间集中,经销商可通过囤蒜哄抬蒜价,蒜农由于缺乏存储设施,会因蒜价波动导致种植成本损失,此外关于经销商的机会主义行为尚未形成完善的监管机制。基于此背景,本文综合应用演化博弈理论、农产品价格非对称传递理论研究经销商跟风炒作行为、蒜农不同种植规模及政府监管对大蒜交易主体策略选
学位