高效且支持多查询的离群点检测方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:nihaoalinlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的进步,数据挖掘这一学术领域正在日益发展,离群点检测作为其重要组成部分之一,目的是找出异常的数据信息。迄今为止,离群点检测的相关技术已经在网络安全、社会分析等诸多领域中被应用。在离群点检测系统中,随着上层业务的不断拓展,系统在同一时间段内所接收到的查询请求不断增多,而处理的时效性要求也不断提高,这也对离群点检测算法的性能提出更高的要求。而现有的离群点检测算法绝大多数都是面向单个查询,这使得系统在短时间内处理大量查询请求时的性能不佳,降低了用户的使用体验感。因此,本文主要针对离群点检测的多查询问题展开了相关研究,主要贡献点如下:(1)提出了一种面向单查询的高效离群点检测算法——RODA_SQ(R-tree Outlier Detection Algorithm-Single Query)。首先,该算法对传统的空间索引R树进行扩展,即为R树中的每个结点添加了密度属性,并提出了一种估算数据点离群度的新型方法。然后将离群点在空间中的存在特性与扩展后的R树索引相结合,通过从R树中选出较小密度的结点,并优先计算该结点内离群度较大的数据点,能够快速地在初始时确定一个较好的阈值实现过滤。与此同时为了提高过滤的效果,将采用新型的批量过滤定理帮助实现过滤,从而加快检测的效率。(2)在RODA_SQ算法的基础上,提出了一种面向多查询的高效离群点检测算法——RODA_MQ(R-tree Outlier Detection Algorithm-Multiple Query)。首先将用户给定的多个查询任务进行分组,保证分组内的查询任务尽可能多地共享重复计算的部分,加快多查询处理的检测速度,并减少内存浪费;然后对于组内的多个查询任务进行查询处理操作,直到所有查询分组全部处理结束。RODA_MQ算法通过深入分析实现了多个查询之间的共享机制,经过一次处理可以完成多个检测任务,使用户的需求量得到满足并加快检测速度。(3)分别用真实数据集和人工合成数据集从多个方面验证本文提出的RODA_SQ算法和RODA_MQ算法。实验结果表明,与现有的相关算法相比较,无论是在面向单查询还是面向多查询进行处理时,本文提出的算法在运行效率上均有提高,而且具有良好的实用价值。
其他文献
在发展中国家和发达国家经济发展的这个时代,私有化正在成为更多的议程。经济发展的不同形式的经济转型。正如私有化一样,国家与生产部门之间存在传统关系。私营部门缺乏发展,国家干预的主流经济教条以及以交钥匙项目形式提供的外国援助,这些都为尼泊尔的国家所有企业和产业做出了巨大贡献。人们越来越相信私营企业制度可以治愈病态经济,这也是私有化的一个激励因素。在一些国家,政府和公民的政治和经济议程汇合起来,迫切要求
伴随着科技社会的迅速发展和网络信息技术的进步,复杂网络的链接预测的研究有重要的现实和理论研究意义,已经成为近年来的研究热点,广泛应用到多种领域中,如社会科学、计算机
生物防腐是通过益生菌产生对病原菌和腐败菌生长繁殖有害的次级代谢产物,能够争夺生长环境空间和营养物质,从而限制有害微生物的生长繁殖,直至其死亡。生物防腐技术已经在一
产生于上个世纪70年代初的Domain理论和80年代的Quantale理论是格上拓扑学的两个重要分支,它们各自独立发展,但从共同的数学基础来看,二者均基于序结构理论,同时与拓扑、代数
本文主要基于已有的二维雷暴云起、放电模式背景下的上行闪电随机放电参数化方案,来进行二维高分辨率闪电放电的模拟实验,定量探讨了其他闪电放电过程对上行闪电的触发产生的
设尼是一个域,S=k[x1…,xn]是域k上的n元多项式环.S的一个理想I称为不可约单项式理想,如果I由S的不定元的方幂生成,比如I =(x12,x23,x56).不可约单项式理想是一类特殊的完全相
本文首先介绍了粒子物理的标准模型及夸克-胶子等离子体(QGP)的产生,并阐述了能够达到高温高密环境从而产生QGP的相对论重离子碰撞过程,能够反映初态粒子几何信息的椭圆流及Q
雾、霾等不良天气条件下,户外场景的能见度急剧下降,导致成像设备采集的图像或视频出现了严重的退化现象,例如:色彩淡化、细节丢失及清晰度下降等,从而限制和影响了视频监控
算子谱理论,作为现代数学最基本的理论之一,一直是泛函分析中经久不衰的研究课题.它不仅在偏微分方程、非线性科学和量子力学中有着广泛的应用,而且在近代物理学、现代科学技
随着复杂网络研究的发展,人们逐渐开始关注网络结构复杂性以及其与网络行为之间的关系。为了更好地理解网络结构和网络行为之间的关系,就需要详细了解网络所具备的特性。复杂