数据流离群点检测研究

被引量 : 0次 | 上传用户:nsldp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着信息技术的发展,出现了一类新的数据模型——数据流。它以实时、连续、有序的数据序列方式存在于人们生产和生活各个领域,如股票交易,火车售票系统,传感器网络等。它具有数据量大,连续快速,不可预测和短暂易逝等特点。数据流的这些特点决定了很多传统数据挖掘技术无法推广到数据流上。它要求数据挖掘具有在线挖掘能力,能在有限的空间里实时地处理源源不断地流入的数据并及时将挖掘结果反馈给用户。在很多数据流实际应用中,人们往往只关注数据流中离当前比较近的数据,对较远的历史数据兴趣不大。为了满足这种应用需要,滑动窗口技术应运而生。滑动窗口(包括基于时间的和基于数量的)内的数据是数据流离当前最近一段数据。数据流上离群点(异常点)检测是数据流数据挖掘的一个重要的分支,它在数据流应用中有着非常重要的理论和应用价值。比如:在银行的交易数据中,一些异常交易数据可能预示金融欺诈。在机场安检系统里,检测一些异常的行为可以有助于避免恐怖袭击。在疾病监控数据中,挖掘一些异常的疾病数据可以监控一些疾病的变异和预警重大传染病暴发。在产品生产的数据中,检测产品的一些缺陷可以较快地了解生产机器的性能状况。由于数据流数据量大,不可能被存储到存储介质上,挖掘静态数据中的离群点检测算法无法推广到数据流上去。因此需要研究数据流中的离群点检测方法。由于数据流中的数据具有易逝性,再加上流数据量大速度快,因此流上的离群点检测方法只能单遍访问数据,需要以较少的时空代价增量反馈离群点。在滑动窗口的数据模型中,滑动窗口不断向前滑行,一部分旧数据会滑出窗口,一部分新的数据流入了窗口。这种新旧数据交替直接影响窗口上离群点检测结果。为了反应窗口内数据变化的趋势,窗口上的离群点检测方法一方面要将新进的信息补充到已有离群信息中去,同时定期地清除过期的离群信息,从而提高算法的准确率并节约存储空间。基于滚动物理窗口的最近滑动窗口离群点检测方法充分利用ROF-tree结构优势,动态维护窗口内的频繁模式和离群信息。通过定期执行修枝和刷新算法清除掉ROF-tree树上的过期和非离群的数据,有效地提高了内存空间的使用效率。该方法使用保守估计策略得到的数据的离群度的近似值总不小于数据真实的离群度,从而实现了尽力不漏报离群点的目标。为了能动态地,方便地检测可变滑动窗口内的离群点,我们提出了基于频繁模式的流数据离群度量——抵触频繁模式离群因子FPCOF,它能更加直观准确地度量数据的离群程度,并在此基础上给出一种能迅速准确地挖掘数据流上任意大小滑动时间窗口内离群点的算法ODFP-SW。算法通过构建SWODFP-Tree树,在将流入的数据增量更新到树上的过程中,同时计算出了数据的FPCOF值,并通过树上的候选离群集的删除和移动,动态更新候选离群集以及候选离群点的FPCOF值,能实时动态地反映数据流中离群信息的变化过程。在数据流离群点检测的应用中,选择一个合适的离群度的最小检测门限是一件复杂而困难的事情。人们因而提出了检测数据流上TOP-K离群点的需求。针对这种需求,我们提出了一种数据流上滑动窗口TOP-K离群点检测方法。方法根据切尔诺夫(Chernoff)边界定理和当前第K离群点的离群度,估算出TOP-K离群点的最低离群度门限。依据门限将窗口内的数据分为两类:候选TOP-K离群点和非离群数据。当滑动窗口不断向前滑行时,算法将窗口中的过期的和非离群数据清除,这样可以节约大量存储空间,并能高概率地保证了方法对窗口内TOP-K离群点检测的正确性。在数据流滑动窗口查询研究领域中,连续查询结果失效的问题成为了一个新研究热点。查询结果的维护代价直接影响连续查询效率。根据对不同更新模式连续查询结果的分析,我们提出了一种带分支链表的梯队列来维护滑动窗口连续查询结果。它利用分支链表结构收集具有相同截止期的数据,采用梯队列的“产卵”机制,能适应具有各种不同分布的数据维护,且能达到O(1)的均摊(amortized)时间复杂度。
其他文献
<正>在中国,"生态"成为社会公共话题不过是近一二十年的事。众所周知,三十年来,中国经济社会的持续高速发展以高耗能、高污染为代价,引发了一连串生态危机。特别是2014年,中
<正>据中国2010年上海世博会官方网站"世博网"8月9日报道:"昨天是上海世博会开园第100天,截至21时,入园参观者约39.07万人,累计参观人数已达3781.64万。"世博会开园到这天,会
目的:研究不同浓度超小超顺磁性氧化铁颗粒(USPIO)在兔胭窝炎性淋巴结中的增强磁共振特征,建立USPIO淋巴结显像的常规注射及扫描方案。材料与方法:12只健康新西兰兔于足垫处注
在环境污染和能源危机背景下,我国新能源汽车产业依托政策的带动,在市场发展和产业政策双重动力驱动下持续发展,产销量稳步增长,核心技术水平不断提高,相关配套基础设施逐步完善。在我国新能源汽车产业发展过程中,政府为了进一步促进产业的发展,制定了一系列产业政策。评价这些政策的实施效果,有利于政府精准制定或调整产业政策,以推动新能源汽车产业的发展。本文以新能源汽车产业政策实施效果为研究对象,将新能源汽车产业
本设计研究的是陕西省兴平市西红柿中维生素C含量的测定,其内容包括国内西红柿的概述、西红柿中维生素C含量的概述;在采样的基础知识中包括了西红柿的采集、制备、西红柿中维
本论文采用熔炼铸造和粉末热压的方法制备了Si质量分数为13%、27%、33%、50%、60%、70%、90%的一系列Si-Al合金,利用扫描电镜(SEM)、光学金相显微镜(OM)、差热分析(DSC)等分
在纪录片创作实践中,音乐作为一种艺术表达手段,具备独特的审美价值,但学界对这方面的研究一直很少。本期"纪录时代"栏目刊发了张欣的文章《纪录片音乐的特征与价值探析》,对
<正>"三网融合"?是关系到我国信息化水平提升,以及新媒体产业科学发展的带有根本性、关键性、全局性的战略目标,也是长期受体制困扰、亟待解决的重大难题。2010年1月13日,温
《心理模块性》是美国心灵哲学家、语言哲学家福多于1983年写就的,书中提出了—种关于心理结构的理论——模块论。心理模块论作为认知心理学中的一种重要理论,迄今为止还没有
<正>"新闻失实,由来已久。屡治屡犯,愈演愈烈,似乎成了公认的顽症。究其原因,既有思想、作风上的因素,也有技术、工作上的问题。然其要者,恐在党风和社会风气之不正。""马