基于半监督异常检测系统的研究与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:tiamflying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网的时代到来,数据量级呈现了爆炸式的增长,大数据的时代随之到来。由于传统框架无法很好的处理海量数据的计算,新型的计算框架应运而生,这些框架的出现为数据的并行计算提供了极大的帮助,为数据科学的各个领域奠定了基础,加快了各领域的发展。然而随着数据量的不断增大,异常数据,恶意攻击也越来越多。异常数据在很多情况下可以对系统造成极大的危害,所以异常的检测也显得越来越重要,异常检测的相关方法也同时受到了更多的人的关注。异常数据也可以理解为不符合预期的数据,需要被识别出来。因为异常检测识别的对象是高维样本特征,所以这种情况下首先考虑使用机器学习算法。在实际的应用场景中,受检测的数据可以分类为有标记数据和无标记数据。获取大量有标记数据的难度较大,一般都需要经过专家的人工标记才能获得数据对应的标记,而这个过程需要耗费大量的资源才能完成,然而获取少量有标记数据的难度较低,比较容易实现。但是传统的机器学习算法并没有很好的利用大量未标记数据,只能运用少量有标记数据,因此在实际运用中表现不佳。按照训练过程中数据的标记有无,机器学习算法分为无监督学习算法、有监督学习算法、半监督学习算法。有监督算法要求受训练的数据都具有标记,但是这种条件很难达到,无监督算法虽然不需要数据具有标记但是整体的效果表现不如有监督学习,而介于有监督和无监督的半监督算法则综合了两种学习的优点,很好的发挥两者的优势。因此本文使用了一种近年提出的半监督模型Deep SAD并结合线性判别分析(LDA)模型中的分类功能对部分未标记数据进行预处理的方法来进行异常检测。Deep SAD模型是在Deep SVVD的基础延伸的,该模型在一定的程度上可以将标记的异常数据和正常数据都进行合理的运用。本文的主要工作如下:1.将线性判别分析模型与Deep SAD模型结合,先利用线性判别分析模型中的分类功能为未标记数据生成近似标签,用生成的近似标签来指导网络训练。再使用Deep SAD模型中的目标函数来提升异常检测的效果。同时对Deep SAD模型中的重要参数进行调整,来获得该模型能够达到最好效果的参数值,并将结合了线性判别分析模型后的Deep SAD模型与其它部分已知的模型横向对比,综合测试该模型的效果。2.基于结合了线性判别分析后的Deep SAD模型的异常检测系统开发。使用结合了线性判别分析模型后的Deep SAD模型开发了基于Spring Boot框架的异常检测系统。此系统提供了人工标记数据的接口,当系统中产生大量未标记的数据时,分析人员可以使用该接口进行部分数据的人工标记,再将未标记的数据和人工标记的数据共同传入异常检测模块中进行异常检测、并将检测结果进行存档以便于后续的异常追踪。
其他文献
在小学语文高段课堂教学中应用对联教学是一种新的教学形式,其能够让学生在吸收和创新传统文化的同时,还能提高学生的整体文化素养和语文综合学习能力。主要分析了对联在小学语文教学中的作用,提出实现对联与小学语文教学完美结合的指导建议。
让驱动世界的力量重归自然,燃料电池汽车只是氢能利用的开始作为以煤炭、石油为主要燃料的世界第一碳排放大国,我国要在2030年之前实现碳排放达峰、2060年之前实现碳中和,任务十分艰巨,虽然在这个过程中会有许多困难和挑战,但也会带来科技创新、能源转型等重大机遇。
期刊
钢结构具有工业化程度高、结构自重轻、强度高、抗震性能好、绿色环保等优势,是我国重点推广的建筑结构类型之一。受我国钢材产量增加、劳动力成本上升等因素影响,钢结构的应用范围越来越广,人们对钢结构性能有了更高要求。为提高钢结构性能和钢结构建设项目经济性,有效节约资源、保护环境,获取钢结构长期综合效益,促进钢结构产业可持续发展,亟需立足于全寿命周期,从多目标整体出发,寻求钢结构的高性能发展策略。为此,本研
鉴于当前严峻的能源危机与环境问题,开发与利用新型可再生能源迫在眉睫。以太阳能、风能为代表的清洁能源由于在时间与空间上分布不均,需依赖高效能量转化与存储装置才能进一步利用。电解水与锂二次电池是能量存储与转化的重要技术方案,其电极材料性能显著影响系统整体电化学性能。针对上述两个体系中电极材料存在的问题,本论文通过针对性的设计具有特定化学组成和物相结构的铁系元素化合物及其复合物,调控其尺寸及表面物化性质
气流经过输电线两侧时,产生非对称排列且方向相反的旋涡,并交替地作用在输电线的上表面与下表面,造成输电线沿竖向方向上下振动,产生微风振动现象。防振锤作为一种质量调谐阻尼器,能很好的控制输电线上的微风振动。碰撞式质量调谐阻尼器(PTMD)相较于传统非碰撞式质量调谐阻尼器(TMD)会增加额外的冲击耗能,有更加优异的减振性能。基于此理论,本文将PTMD运用于输电线微风振动控制中,设计一种新型防振锤——PT
无线通信系统的快速发展,对天线提出更高的要求。要求天线在具有小型化尺寸的同时,也要具有多功能的复用特性。可重构天线可以在单个天线上实现多种功能,一方面可以实现对不同信号的多功能发射和接收,另一方面可以减少天线单元使用数量,成为可重构天线研究的重点。本论文针对不同特性对可重构天线进行了研究。主要内容如下:①设计了一种小型化、高效率双频极化可重构天线。该天线的辐射体由两个相互嵌套放置的环形贴片组成,实
金属离子电池—锌离子电池是一种具有前景的绿色储能电池。近年来,由于锌负极成本低、体积容量大(5855 m Ah/cm~3)和氧化还原电极电势较高(-0.76 V vs.SHE)以及水性电解质不燃性、无毒性和离子电导率高,锌离子电池受到越来越多的关注。作为研究最为广泛的锰基化合物正极材料,绝大多数存在着溶解和容量衰减问题。本文采用液相法和金属掺杂方法,制备了锰基化合物作锌离子电池正极材料,研究了正极
电子信息制造业中的新产品导入(NPI:new product introduction)是指将研发设计开创的新产品在制造端能够进行快速高效的工程试作并能够小批量试投生产,在保证质量稳定的前提下,能够大批量制造出货的一系列制造工程技术活动。针对电子信息制造业新产品导入项目沟通管理评价的研究相对较少,更多的只是项目管理整体的角度分析或者项目质量管理、风险管理评价角度的研究。本文以电子信息制造业行业背景
微生物天然产物作为药物开发的重要来源,其结构与生物活性相当丰富。现有微生物天然产物主要来源于放线菌与真菌。基于现有微生物的研究基础,本论文研究了两株来自不同生境的真菌(Penicillum brefeldianum WZW-F-69、Phomopsissp.F00249)的次级代谢产物,共获得 28 个化合物,其中新化合物10个,出新率为35.7%。两株真菌的代谢产物主要结构类型是来自WZW-F-
轮毂电机高功率密度、高过载能力和小型化方向的发展受到温升的制约,过高的温升将严重影响电机的运行效率、可靠性和寿命,因此迫切需要寻求更有效的散热方法和措施来抑制电机温升,以提升电机运行稳定性和延长电机寿命。本文提出将冲击射流冷却应用于轮毂电机的散热方法并对其进行了初步的探索,主要研究内容如下:(1)分析了轮毂电机温度场及传热方式,探讨了计算参数对冲击射流数值模拟计算效果的影响并进行了最优选择,对几种