多维数据中基于密度的离群点检测算法研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:erhtyyuk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘领域的热点问题之一,在许多应用场景中都扮演着重要角色,如医疗诊断、道路监测、信用卡欺诈、网络入侵和环境监测等领域。现有离群点检测方法主要应用于低维数据场景,但随着维度的不断增长,传统离群点检测方法受到维度的影响,无法有效检测离群点,同时算法效率降低,无法满足用户日益增长的需求。为了检测出多维数据中的离群点,本文对传统离群点检测算法进行了对比分析和总结,选择基于密度的定义,并提出了一种针对多维数据的离群点检测算法DODMD。为了解决多维空间数据稀疏的问题,文中采用空间填充曲线将数据从多维空间映射到低维空间,并根据映射后的数据构建ZH-tree索引结构,以有效管理多维数据。ZH-tree有两个优点:1)其聚类属性可以有效的帮助搜索数据对象的邻居。2)其层次结构可以有效的进行空间剪枝,以过滤掉不可能是邻居的数据。在原有的ZH-tree基础上进行改进,引入微簇的概念,将每个叶子节点看作一个微簇,并以微簇为单位进行计算,达到批量过滤的目的。基于ZH-tree检测多维数据中的离群点,它包括两个阶段:1)在ZH-tree构建完成后,通过一个贪婪的方法保存离群值较大的点,并计算每个点的真实离群值,标记最小的值为LOFmin。2)通过LOFmin过滤掉不可能存在离群点的微簇,如果不能过滤则计算其中点的真实离群值,然后更新结果集,使边界更加紧密。在此基础上,本文设计并实现了多维数据中基于密度的离群点检测原型系统,分别在真实数据集和人工合成数据集上验证了 DODMD算法的准确性和高效性。
其他文献
研究了优化花生壳中木犀草素的提取工艺条件。通过正交试验,以提取物中木犀草素的含量为评价指标,优选提取工艺。确立了以质量浓度为70%乙醇、料液比1:10、提取3次、每次时间2h为
由中国元机盐工业协会、上海钾盐工程技术研究中心主办,中国元机盐工业协会钾盐行业分会主办的“2008年世界钾盐大会(博览会)”,将于2008年7月上旬在上海举行。
【正】 寒冬已尽,大地复甦。来自日本四国东部的德岛少年合唱团,为我们演出了丰富多采的合唱音乐会。四十名少年歌手,由上田收穗指挥,以天真活泼、朴实真挚和炽热的民族情感,
合理的教学方法是提高课堂教学效果的重要手段,而教师对教学过程中的心理因素的把握,会直接影响教学方法实施的效果。从“刺激与兴趣”“期望与诱导”“合作与竞争”“探究与建
通过对高校信息管理类专业人才培养目标的分析,阐述了在《ERP应用与实施》课程建设中应该重点解决的三个方面:整体教学设计、教学方法改革和实践教学;对项目导向、任务驱动、一
学生社区作为学生日常生活学习、开展活动的重要场所,是构建和谐校园的重要组成部分。理智地审视和谐学生社区的构建,我们会发现存在资金压力大、学生需求多样化和各种不良思想
目的建立一种退浆废水中聚乙烯醇(PVA)质量浓度测定方法。方法以PVA在硼酸溶液介质中与碘-碘化钾形成有色配合物,通过比色法(分光光度法)测定超声波退浆废水中PVA质量浓度。结果测
本文主要对我国目前中职3D MAX课程教学中存在的问题进行分析,并在此基础上以动漫专业为例,根据3D MAX课程的教学目标,对其教学方法进行深入改革和探索,以此来从根本上提高中职3D MAX课程教学的整体质量,提高学生专业水平。随着国家教育部门对中职院校发展重视程度的不断提高,中职院校传统的教学方法已经无法满足3D MAX课程的教学需求。
在我十二岁的时候,母亲去世了。母亲的离去,给整个家笼上了阴影。每个人心头都结着一份苦痛,历经多年,集而不散。母亲看病拉了一屁股饥荒,父亲的账本上,密密麻麻,有十好几页。父亲不
期刊
从经济发展、环境要求、适应时代等方面阐述了我国建设绿色会计的必要性,创建我国绿色会计应遵循的原则,绿色会计的确认、计量与报告,以及我国政府应采取的相应措施。