面向多维流数据的离群点检测算法研究与实现

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:identitymatrix
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据的离群点检测在信用卡欺诈检测、股票投资计划等许多现代应用中都发挥着重要作用,是数据管理领域中的一项重要问题。应用最为广泛的基于距离的离群点检测现已被广泛研究。但现有技术无法支持面向多维流数据的离群点高效检测,其根本原因是高昂的范围查询和候选对象维护代价。针对上述问题,本文提出了查询处理框架PIOD(Partition-Index based Outlier Detection)和ISOD(Index based Slide-query Outlier Detection)。本文首先研究了滑动窗口模型下基于kNN的离群点检测问题。针对此类问题,本文提出查询处理框架PIOD。PIOD首先利用分片技术对滑动窗口进行划分,基于此,PIOD以Z曲线为基础提出ZPH-Tree索引管理流数据,同时本文增加缓冲区更新机制提高索引的适用性。再次,PIOD基于ZPH-Tree提出候选离群维护算法,该算法通过分片技术和索引空间过滤,避免维护所有对象的k近邻。此外,本文提出基于EM-tree索引的CSM(Candidate-Set Maintain)算法通过维护候选对象间的位置关系和分值关系,降低候选对象维护代价,实现候选集合的高效维护。理论分析和实验验证了PIOD的高效性和稳定性。本文随后研究了滑动窗口模型下基于阈值的离群点检测问题。针对此类问题,本文提出查询处理框架ISOD。首先,ISOD以Z曲线为基础提出索引ZPT-Tree管理流数据,该索引一方面维护流数据间的位置关系,另一方面维护流数据的时间关系。其次,ISOD基于ZPT-Tree提出最少搜索原则,该原则通过安全点的筛选和候选对象最佳邻居的查询与维护,避免重复计算代价,降低范围查询次数,实现基于阈值离群点的高效检测。理论分析和实验验证了ISOD的高效性和稳定性。
其他文献
本文是一篇翻译实践报告,所译材料是《美容护肤产品配方》,是一本由美国知名皮肤科医生Zoe Diana Draelos与宝洁公司科研专家Lauren A.Thaman主编的化妆品科学专业书籍。这一类的文本具有许多显著的特征:在词法方面,专业性词汇和缩略词众多,除了专业术语外,还有部分普通词汇,这些普通词汇虽有其自身含义,但在专业领域中与其他词语搭配意义则会大不相同;在句法方面,长难句较多,多使用被动
科技在不断进步,人们的生活日新月异,这也促使无线通信技术飞速发展。然而随着用户设备数目的增多,用户对通信质量要求越来越高,频谱资源也越来越稀缺,现有的通信技术渐渐不
在经济全球化和技术标准化的浪潮席卷下,探讨如何运用反垄断法对专利池滥用进行规制,具有理论上和现实上的必要性。专利池具有整合互补技术、减少交易成本和避免昂贵的专利侵权诉讼的优势。但是,为追求超额垄断利润,专利权人不正当地扩大自身权利的范围,滥用专利池限制市场竞争、排斥竞争对手,最终间接损害消费者的利益。所以,我们必须完善专利池滥用反垄断法规制体系,充分保障市场经济的发展。我国对专利池滥用进行规制主要
近年来,面向空间网络数据的查询服务已广泛存在于现实生活的应用中。将该服务外包到云计算平台能有效降低本地资源开销和运营成本。然而,直接将数据服务外包到云平台可能会引起严重的隐私问题。因此,如何在云平台中提供保护隐私的空间网络查询服务是当前研究的热点问题。针对该问题,本文对云环境下空间网络查询服务的隐私安全关键技术展开深入研究,面向空间网络kNN查询处理提出了一系列隐私保护方法。本文首先提出了基础空间
随着信息技术的不断发展,流数据逐渐成为当今主要数据类型,它具有数据规模大、传输速度快等特征,这些特征给高效管理流数据带来巨大挑战。离群点检测是数据挖掘领域一种重要数据挖掘技术,在流环境下有着广泛的应用。现有算法普遍存在计算和空间代价大等问题,无法在高速流环境下高效工作,用户的实时性要求无法满足。本文研究面向流数据的离群点近似检测问题,以降低精度为代价换取计算代价的大幅降低,满足用户实时性需求。本文
研究目的:分析儿童重症呼吸道合胞病毒(Respiratory syncytial virus,RSV)性肺炎相关危险因素,总结其临床特征。研究方法:回顾性研究2014年1月1日至2018年12月31日首都儿科研究所附属儿童医院呼吸内科住院的RSV肺炎患儿。(1)依据儿童社区获得性肺炎诊疗规范(2019年版)中重症肺炎的标准,将患儿分为重症组与普通组,对两组患儿一般资料、临床症状、实验室检查、影像学
近年来,随着通信技术的发展,人们对大容量和高速率信息传输需求越来越高,为了满足社会需求,需要采用不同调制格式的矢量信号进行信息传输,以提高通信传输速率和频谱利用率,因
近几年压缩感知理论在密码学中获得广泛的研究和发展,其固有的高速采样和压缩结构,不但可以保证传输信息的安全性,而且可以解决海量数据通信时面临的通信带宽和存储压力的问
为了适应作战的需要,雷达经常被安放在大型特种飞机、歼击机、导弹等各种运动平台上,以帮助武器装备获得更广的视野范围、更强的低空目标检测和跟踪能力、更好的跟踪和火控精度。空中运动平台载的各种雷达都难以避免地受到地面杂波的干扰,杂波抑制一直是这类雷达研究和研制的关键技术问题。空时自适应处理(STAP)技术可以有效地抑制杂波,改善运动雷达的动目标检测性能。但目前的研究大量集中在搭载平台理想飞行和雷达阵列轴
通信信号调制方式识别是非合作信号处理的关键一环,尤其是基于统计模式识别的方法是目前研究热点。在特征提取过程中由于信号频率、相位等先验信息不足,以及外界环境噪声对信号特征的稳定性的影响,使得空间信号的调制识别一直是难点问题。本文围绕抗噪声能力强、需求先验信息少的谱特征提取方法以及信号分类器开展研究。分析了数字调制和模拟调制信号的各类谱特性,包括信号功率谱、二次方谱、四次方谱、包络谱和分数低阶循环自相