多维多源数据异常检测算法及优化研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:mengyidaocaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测的目的就是从复杂数据环境中快速准确地检测出待检测数据中不符合正常行为模式产生的异常数据。本文围绕多维多源数据开展了异常与孤立点检测、隐私保护异常检测和数据流异常检测三个方面的数据挖掘理论与算法研究。一方面研究大数据异常检测的方法和策略,另一方面研究异常检测优化方法及并行处理算法,为用户深入分析和理解数据提供技术支撑。本文主要的研究内容如下:一、针对数据集中异常与孤立点问题,研究了K距离、可达距离、局部密度以及多维属性聚类方法。研究并构造了聚类相异度的度量方法,用以刻画簇内和簇间的数据对象聚类在某一簇的相异性程度;并结合局部密度构造了一种新的异常判断因子,能有效防止属于同一个簇且距离较近的数据对象都被选为簇心且将同一个簇强制被拆成了两个簇的严重情况。创新的提出了一种基于多维属性聚类和局部密度的异常检测算法。通过UCI数据集实验,在检测率和准确率评价指标的性能具有显著的优势。二、针对大量类似数据集局部异常检测问题,研究了数据集概要和异常参考数据的生成方法,并研究了数据集概要的参数并行优化方法。创新的提出了局部异常检测的参数自动优化及并行处理的大数据集概要方法。从大量相似数据集概要检测准确度、不同数据集规模的概要效率、不同数量异常种子候选集的概要效率、概要算法的执行时间复杂度的实验分析,体现了概要算法的实用性。三、针对异常检测时需要对隐私保护的问题,分别从数据扰动、数据加密和匿名化三个方面创新的提出了隐私保护异常检测算法。(1)从数据扰动的角度考虑,根据局部密度和聚类相异度,研究并构造了数据扰动的复数因子,创新的提出了基于复数变换数据扰动的隐私保护异常检测算法。(2)从数据同态加密的角度考虑,研究了分布式多源数据集的垂直划分获得局部和全局距离矩阵,并加入扰动矩阵对参与方的数据隐私进行保护,创新的提出了域连通的隐私保护异常检测算法。(3)从匿名化的角度考虑,研究了数据集概要中异常参考数据共享区域并对共享异常参考数据进行匿名化,创新的提出了大数据集局部异常检测的匿名化概要方法。从隐私保护程度、异常检测准确度、异常检测的检测率的实验分析,体现了算法的有效性。四、针对一般维度数据流异常检测的问题,研究了基于滑动窗口和多重验证的数据流异常检测模型。(1)研究了基于角度的局部密度、簇心因子、k邻域距离和、局部增量等因素并构造了增强型角度异常因子。结合均值和标准差异常判决准则,创新的提出了基于增强型角度异常因子的数据流异常检测算法。(2)研究了向量点积均值和局部向量点积密度的计算方法,结合数据流异常度量方式和减少人工干预的因素,提出了基于最大斜率的异常判决准则,并创新的提出了基于局部向量点积密度的数据流异常检测算法。经检测准确率、误判率的对比实验,算法具有显著的优势。五、针对高维数据流异常检测的问题,研究了高维数据流的数据稀疏性问题。根据数据稀疏性和数据分块模型,研究了数据流的L邻域、超立方体密度、超立方体密度直接可达与密度相连等内容,并提出了降低异常检测算法错检率的重叠累加值,创新的提出了基于超立方体密度的高维数据流异常检测算法。经检测准确率、误判率、ROC性能曲线及AUC测量的对比实验分析,算法具有显著的优势且提高了对高维数据流的异常特征动态检测的能力。
其他文献
建筑在人类社会的生产和生活中发挥了重要作用,随着社会经济的迅速发展,城市人口日益集中,用地逐趋紧张,使得建筑向空中发展成为必然,因此高层建筑的兴建是一种社会需求。高层建筑结构的发展与新材料的应用、结构理论及技术的发展、施工方法的革新是密不可分的。磷石膏-混凝土组合盒式结构是由钢筋混凝土空腹夹层板、磷石膏-混凝土网格式框架组合墙及钢筋混凝土剪力墙共同组成,其中内筒采用钢筋混凝土剪力墙,外筒采用磷石膏
非瞬时脉冲微分系统综合物理原理和统计回归两种建模方式,使用微分方程和代数方程建模,在病虫害防治、药剂动力学和工程控制等方面有着广泛的应用。在对非瞬时脉冲微分系统可控性和最优控制问题研究的基础上,人们还期望设计有效的学习控制策略,使在有限时间区间内反复运行的受控系统输出能跟踪上预定轨迹,为此必须研究非瞬时脉冲微分系统的有限时间完全跟踪控制。本文运用算子半群理论、集值映射理论、非紧性测度理论、分数阶微
控制纳米辐射体及其系统表/界面的荧光能够有效地增加它的界面电子转移率,减少电子—空穴对的非辐射重构,提升光能利用率,在光伏,光电探测,纳米传感,分子成像等许多领域有重要的应用,是当前科学研究中前沿热点问题之一。相比宽带隙体材料的氧化铝,具有诸多表面缺陷的纳米氧化铝(如氧空位,铝填位等)能够转化为半导体材料使用,并在光电激发时,辐射可见光波段的荧光,这为能带调控提供了新的思路。而半导体量子点由于尺寸
学位
罗甲螨科Lohmanniidae和角翼甲螨科Achipteridae隶属于蛛形纲Arachnida、蜱螨亚纲Acari、甲螨亚目Oribatida。目前全世界已报道罗甲螨科26属236种(含9亚种),中国已知13属37种(含1亚种);角翼甲螨科世界已报道10属109种(含5亚种),中国已知7属12种。本研究共记述中国罗甲螨科14属46(含1亚种)、中国角翼甲螨科8属44种。对其区系分析和系统发育进
森林是陆地生态系统的主体,为人类的生存与发展提供了大量的物质资源,伴随着人们与森林的实践互动形成了与森林资源有关的民族森林文化。这些民族森林文化是生活在林域环境中的民族认识、利用和维护森林资源的成果总和,对森林资源可持续利用与生态保护具有重要作用。目前,随着我国自然保护区的管理策略从以执法为主向以社区为基础的转变,地方民族的传统森林文化在社区森林管理与生物多样性保护等方面的价值引起了人们关注。在贵
随着我国经济的发展和电力设施的大规模建设,我国对电线电缆的需求量也在逐年增加。目前,我国电线导体材料大部分采用的是铜,但我国是一个铜资源极度匮乏的国家,铜资源消费量却达到了世界总消费量的21%,80%左右的铜依靠进口,最终导致我国铜价飙升,因此我国“以铝代铜”用作导电材料的意义非常重大。作为输电线路铝导体材料,需要兼顾高强、耐热以及较好导电率,才能提高导体材料的运行温度和增大输电容量,但提高铝导体
众所周知,非对易并非是一种新的思想,它的起源可以追述到1930年Landau的工作。近年来,由于受到D-膜非零背景场低能效应的研究的推动,非对易理论的研究又引起了人们的广泛兴趣。它的研究将对深入认识小尺度系统所出现的物理效应具有重要的意义。尽管非对易效应仅仅出现在高能标区域,然而在探索其是否存在低能效应也是十分重要的。人们希望通过对非对易量子力学的研究来进一步揭示非对易的本质和非对易效应。在有关非
蝙蝠体上的寄生革螨是我国尚待系统性研究的重要蝙蝠寄生虫类群,它们可能通过叮咬和寄主蝙蝠携带的微生物病原和病毒与包括人在内的高等动物发生直接或间接的重要关系,研究蝙蝠与寄生革螨间的协同进化关系,对认识动物-寄生物间协同进化关系以及物种演化机制具有重要意义。由于采集困难等客观因素的制约,蝙蝠寄生革螨系统学及其相关研究十分薄弱,有关中国区系的研究少而零散,亟待加强分类并拓展相关研究。为此,本文对中国蝙蝠
对于多铁性材料,可以利用磁场改变材料的极化强度,反之也可以利用电场来改变材料的磁化强度,这使利用电写入和磁读出的优化存储方式成为可能,有望应用于电写/磁读式新一代高性能信息存储器件,因此引发了众多学者的研究兴趣。尤其是磁诱导的多铁性材料,由于铁磁有序和铁电有序是相互关联的,因此可能具有较强的磁电耦合,比如六角铁氧体。本论文研究了Sr3Co2Fe24O41基六角铁氧体的晶体结构、磁性及磁电性能,并分
位置信息可用于提供个性化服务以增强用户体验,促进物联网产业发展及智慧城市建设。随着全球定位系统(Global Positioning System,GPS)和北斗导航系统(BDS)的广泛应用,室外定位问题己基本解决,室外位置信息服务(Location Based Services,LBS)产业蓬勃发展。然而,人类80%以上的时间都在室内环境中活动,位置服务、社交网络、健康求助、智慧城市、应急救援、