高维空间离群点检测的局部线性嵌入方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：storm030

【摘要】

：

随着计算机的普及和广泛应用,各行各业产生的数据越来越多,数据的维数也越来越高。挖掘隐藏在高维数据中有价值的信息已经成为各界关注的热点。离群点检测是数据挖掘的重要组

【作者】

：

刘金艳

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2017年期

【关键词】

：

局部线性嵌入离群点维数约简拉普拉斯映射

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机的普及和广泛应用,各行各业产生的数据越来越多,数据的维数也越来越高。挖掘隐藏在高维数据中有价值的信息已经成为各界关注的热点。离群点检测是数据挖掘的重要组成部分,旨在发现数据集中与大多数数据表现和行为不一致的数据,已经应用到信用卡欺诈、网络入侵、医疗处理、公共安全监测等诸多领域。挖掘高维数据中的离群点具有极其重要的理论与实践意义。由于高维数据分布的稀疏性,利用传统的离群点检测方法确定高维空间中离群点的效果并不理想。本文将维数约简思想融入到离群点检测中,研究了基于维数约简的离群点检测方法。由于高维数据大都具有非线性结构,本文将非线性局部线性嵌入降维方法引入到离群点检测问题中,提出了保持局部近邻关系的局部线性嵌入方法和高维空间局部线性嵌入的离群点检测方法,本文的主要研究工作如下。首先,本文介绍了数据挖掘、离群点检测以及维数约简的研究现状,详细评述了几种经典的离群点检测与维数约简方法,着重分析了局部线性嵌入方法的优点与存在的问题,并阐述了传统的离群点检测方法不能准确检测高维空间中的离群点的原因,以及论证了将高维空间中的数据映射到低维空间进行离群点检测的必要性与可行性。其次,针对局部线性嵌入对噪声敏感的问题,本文将拉普拉斯映射融入到局部线性嵌入中,提出了一种保持局部近邻关系的局部线性嵌入的非线性降维方法。利用提出的方法对模拟数据集进行实验,验证了该方法的有效性以及在保持线性结构的基础上进一步保持局部近邻关系的特性。在真实数据集的模拟实验中,我们将本文提出的方法与三种经典的降维方法进行了比较分析,验证了该方法的有效性。最后,由于离群分布在密度较低的区域,本文利用粗糙集模型刻画离群点,提出了一种基于局部线性嵌入的高维空间离群点检测方法。根据所构造的粗糙集模型,将数据集分为稠密区域与稀疏区域。在构造数据集的局部近邻图的同时构造数据集正域的局部线性近邻图。为了更有效地区分离群点,在局部近邻图中增加一个权值,尽量将稠密区域的点与稀疏区域中的点分离开来。在低维空间中采用基于最小生成树的k-近邻启发式方法来检测离群点。将本文提出的方法与四种经典的离群点检测方法在八个数据集上进行对比实验,实验结果验证了新方法的有效性。

其他文献

具有随机模糊收益的最优投资组合

本文考虑当收益是一个随机模糊变量时，投资者该怎样做出最优的投资组合决策.我们利用风险曲线理论给出一个投资组合的模型.在安全投资组合的前提下，使得投资收益最大化.考虑到

学位

风险曲线置信曲线投资组合随机模糊收益遗传算法

生物等价性检验

随着现代科学技术的进步，越来越多的药物和治疗方案被研发出来，但是新药和新的治疗方案的效果，是否能够达到已有的药物和治疗方案的治疗效果，都需要进行等价性检验。虽然等价性检

学位

生物等价性个体内随机误差无偏检验交并原则

Extremal IM-extendable graphs with a triangle

图的匹配可扩理论是图论中研究的主要问题之一.对导出匹配可扩图的研究来源于导出匹配及完美匹配的研究.Plummer[7]于1980年首先提出了n可扩的概念，随后同年[3]他又研究了关于

学位

完美匹配导出匹配可扩理论经验证图

一类两种群互惠模型的共存及周期性

学位

各向异性扩散方程的模拟差分方法

非均质各向异性扩散方程-Δ·(Λ(x)▽u)=f在水文地质学、油藏模拟、等离子物理、生物学、金融数学等科学领域都有着重要的应用.该问题的离散方法有有限差分法、有限元方法、

学位

非均质各向异性扩散方程模拟差分法误差估计半阶收敛性刚度矩阵

A Novel Version of the Edge Szeged Index

类似改进的(点)Szeged指数，我们给出边Szeged指数一个新的形式，记作改进的边Szeged指数。连通图G的改进的边Szeged指数定义为　　Sze*(G)=∑(mu(e｜G+m0(e｜G)/2)(mv(e｜G)+m0(e｜G)/2)

学位

边Szeged指数单圈图桥图计算端点距离

复微分方程解的增长性与辐角分布

学位

涉及特殊算子的多叶解析函数子类的性质

在第一章中，作者研究了多叶解析函数算子Ip，α，βδ，λ，lf(z)在单位圆盘U内的一些性质，得到算子Ip，α，βδ，λ，lf(z)的中间定理。　　在第二章中，研究了用算子Ip，α，βδ，λ，lf(z)定义的多叶

学位

多叶解析函数微分从属Hadamard乘积或者卷积中间定理积分算子

双曲守恒律方程组弱解存在性及相关问题的研究

本文我们主要研究了非线性双曲守恒律方程组弱解的存在性及其相关问题。　　第一章我们给出研究的问题及其研究背景(其中包括弱解的存在性和唯一性的研究概况)，及得到的主要研

学位

双曲守恒律方程组Riemann问题Liu熵条件估计理论存在性弱解

(形变)预投射代数及其相关问题

预投射代数是由Gelfand和Ponomarev在研究不含定向圈的有限箭图的表示理论时提出的一类重要的代数，它在代数表示理论、数学物理、微分几何、非交换代数等领域都起着十分重要的

学位

(形变)预投射代数扭群代数广义McKay箭图Kac-Moody代数

高维空间离群点检测的局部线性嵌入方法研究

与本文相关的学术论文