处理静态数据和流数据中离群点检测问题的有效方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：wobushilaji

【摘要】

：

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2021年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据的可访问性、便捷性和可靠性是十分关键的,任何形式的干净数据都已成为当今社会中人类的新财富。在许多领域里,由于数据本身大容量和高速传输的特点所带来的巨大挑战,维护高质量数据的能力已经变得十分重要。数据可以给各个行业的企业提供对其企业活动的价值分析进而帮助企业激发其最佳潜力,并在与对手竞争中获得更大的优势。因此企业现在大力投资研发数据挖掘技能,期待从不同类型数据中发现隐性的数据价值。离群点检测是一项非常重要的数据挖掘任务,其目的是检测偏离正常数据预期模式的对象,因为离群点有极大可能影响数据分析结果。离群点检测是一个在不同领域、不同数据类型中有着广泛应用的重要问题。离群点有许多潜在的来源,在大数据集中识别它们需要有效的方法。随着数字时代的发展,离群点的检测变得越来越具有挑战性。例如,随着传统批处理数据的革命,我们现在看到大量的数据以高速、动态的方式连续生成。这些类型的数据可能包含冗余信息,并且通常会影响离群点检测方法的效率和总体性能。多年来,为解决离群点检测带来的挑战,使用不同算法的方法和技术被提出。一些常见的困难与输入数据的性质、离群值类型、数据标签、准确性以及CPU时间和内存消耗方面的计算复杂性有关。研究人员继续寻找更好的解决方案来解决这些挑战,并且考虑检测离群点的有效性。为了实现这一目标,本文针对传统方法存在的缺陷和局限性,提出了在不同数据集中检测离群点的方法,并提出了在批处理和数据流中处理离群点的有效方法。本文进行了广泛的实验,以评估所提出的技术相对于其他先前方法的性能,并讨论了相应实验结果。本文共分五章,前两章为研究的基础。第一章介绍了本研究的目的,及离群点检测的一些基本概念包括定义、成因和应用领域。第二章对近二十年来离群点检测方法的研究进展进行了全面而有组织的回顾。我们将这些方法从不同的离群点检测技术（如距离、聚类、密度、集成和基于学习的方法）中分为不同的技术。在每一类中,我们都介绍了一些最新的离群点检测方法,并对它们的性能进行了详细的讨论。此外,我们描述了它们的优缺点和挑战,为研究人员提供每种技术的简明概述,推荐方案和可能的研究方向。在本文的第三部分中,针对不同类型的离群点检测方法,我们提出了一种基于统计的方法来解决离群点的检测问题,并给出了最优的解决方案,使离群点检测的思想能够更有效地提高检测率,同时使计算代价最小化。为了实现这一目标,我们提出了用于参数化方法的高斯混合模型（GMMOD）和用于非参数方法的核密度估计（KDEOD）算法第四和第五部分扩展了在不同数据类型的数据流中检测离群点的目标。第四部分提出了一种基于距离的方法。提出了一种基于最小探测的微簇（MCMP）混合方法。为有效降低距离异常检测的计算代价,提出了一种新的基于距离的异常检测技术。提出的MCMP技术包括两种方法。首先,采用微聚类的方法来减少范围查询搜索。然后,为了处理微簇外的对象,我们提出了区分强内联和平凡内联的概念。第五部分提出了一种基于聚类的方法。提出了一种基于聚类的数据流离群点检测方法（CLODS）,该方法首先应用微聚类技术对密集数据点进行聚类,然后根据数据流的相关性对窗口内的数据点进行有效的处理,从而检测出进化数据流中的离群点他们各自的地位或地位。这两种方法都提高了计算速度和内存消耗,同时保持了异常检测的准确性。在大多数数据集中,它们在CPU时间和内存消耗方面都优于最新的方法。最后一部分中,本文针对离群点检测方法的未来发展,为研究者提供了一条清晰的思路去面对一些开放性的研究问题和挑战。

其他文献

粤港澳大湾区科技成果转化报告（2022）发布

报纸

抒情类语段微写作

＜正＞抒情类语段的微写作，顾名思义，就是主要运用抒情的表达方式进行的片段写作。生活中，我们每个人都会有动情之时，例如被身边的好人好事感动，思念远方的朋友，为亲人的离开而哀伤，因别人的指责而愤怒……把这些情感通过文字表达出来，就是抒情。

期刊

微写作为中年级习作起步助力

如何利用微写作助力中年级习作教学的高效开展？本文对此进行了探析。文章主要分析了微写作教学的价值，并列举相应的教学策略，包括制定长效化的微写作实施方案、设定生动有趣的微写作主题、提供优质的写作素材、设置开放式写作题目等，以期能够给广大语文基础教学工作者以一定的参考。

期刊

从“微”入手，爱上习作

针对学生习作方面存在的普遍问题，本文围绕一个“微”字，通过“微写作”“微训练”“微修改”等形式，破解学生“选材难”“构思难”“描写难”“修改难”等问题，从而达到激发学生写作兴趣、提升学生写作能力、提高学生写作素养的目的。

期刊

随文“微写作”，读写相融合

随文“微写作”，就是阅读教学中，让学生跟随课文的阅读，立足一点进行短小的习作训练，使学生在读中悟写、读写融合。随文“微写作”能消除学生习作的畏难情绪，是落实语文要素、训练学生高阶思维的有效路径。统编语文教材课后小练笔的习题设计，明确地表现出编者努力为学生搭建读写的通道。阅读教学中，教师要把读写进行融合，组织学生开展随文“微写作”活动，提升学生的习作能力。

期刊

加快推动科技成果转移转化奋力打造科技成果转化最佳地

＜正＞加强产学研深度融合，加快科技成果转移转化是实现创新驱动发展、促进科技与经济紧密结合的关键环节。习近平总书记高度重视科技成果转化工作，今年4月在广东视察时强调，要推进创新链产业链资金链人才链深度融合，不断提高科技成果转化和产业化水平，打造具有全球影响力的产业科技创新中心。这为我们深入实施创新驱动发展战略、打造科技成果转化最佳地指明了前进方向、提供了根本遵循。

期刊

学生“微写作”能力训练与提升摭谈

微写作不同于传统的写作,有着独特的写作特点,它使得作文呈现出灵性的一面,更彰显其生动性。作文教学中,教师要采取科学的教学方法,积极引导学生强化生活积累,注重情感体验,能够自由、随意地发挥写作灵感,提高自己对文字的驾驭能力。

会议

习近平总书记关于立德树人重要论述的多维阐释

立德树人在教育中具有根本性、基础性的地位和作用。深刻把握习近平总书记关于立德树人的重要论述的思想精髓需要从思想来源、价值意蕴、实践路径等方面阐释。将立德树人落到实处，必须坚持和加强党对学校工作的全面领导；深化马克思主义理论教育，注重传统文化的传承；构建家庭、学校、政府社会协同育人机制。

期刊

小学语文微写作教学要侧重“三有”

＜正＞有人说，这是一个微时代，一切带“微”字的事物风靡盛行，微写作也不例外。什么是微写作呢？从篇幅上说，它是短小的，一般控制在300字以内；从创作时间上看，它是一种即时性写作；从内容上看，或叙事抒情，或发表议论，或谈感受，或记录思想，写作内容比较自由；从题型上看，有改写、扩写、续写、仿写、评论等。见微知著，微写作也能在一定程度上锻炼学生的写作能力，展现学生的写作水平。因此，微写作是小学语文教学的必

期刊

小学高年级微写作教学的“三副良方”

＜正＞随着微信、微博的广泛应用，微写作也悄然兴起。何为微写作呢？简单地说，就是篇幅短小、重点突出、快速精准的习作。事实上，微写作并非新时代的产物，传统的语文教学中早就有了。例如，小学语文习作教学中一贯强调的小练笔就是微写作，中学语文习作中的小作文也是微写作。如何让微写作在小学高年级语文教学中发挥更大的作用呢？本文提出“需要”“生活”“成功”三副良方，以激发学生的微写作兴趣，丰富他们的微写作素材，助

期刊

处理静态数据和流数据中离群点检测问题的有效方法

与本文相关的学术论文