高维空间离群点检测的局部线性嵌入方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:storm030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和广泛应用,各行各业产生的数据越来越多,数据的维数也越来越高。挖掘隐藏在高维数据中有价值的信息已经成为各界关注的热点。离群点检测是数据挖掘的重要组成部分,旨在发现数据集中与大多数数据表现和行为不一致的数据,已经应用到信用卡欺诈、网络入侵、医疗处理、公共安全监测等诸多领域。挖掘高维数据中的离群点具有极其重要的理论与实践意义。由于高维数据分布的稀疏性,利用传统的离群点检测方法确定高维空间中离群点的效果并不理想。本文将维数约简思想融入到离群点检测中,研究了基于维数约简的离群点检测方法。由于高维数据大都具有非线性结构,本文将非线性局部线性嵌入降维方法引入到离群点检测问题中,提出了保持局部近邻关系的局部线性嵌入方法和高维空间局部线性嵌入的离群点检测方法,本文的主要研究工作如下。首先,本文介绍了数据挖掘、离群点检测以及维数约简的研究现状,详细评述了几种经典的离群点检测与维数约简方法,着重分析了局部线性嵌入方法的优点与存在的问题,并阐述了传统的离群点检测方法不能准确检测高维空间中的离群点的原因,以及论证了将高维空间中的数据映射到低维空间进行离群点检测的必要性与可行性。其次,针对局部线性嵌入对噪声敏感的问题,本文将拉普拉斯映射融入到局部线性嵌入中,提出了一种保持局部近邻关系的局部线性嵌入的非线性降维方法。利用提出的方法对模拟数据集进行实验,验证了该方法的有效性以及在保持线性结构的基础上进一步保持局部近邻关系的特性。在真实数据集的模拟实验中,我们将本文提出的方法与三种经典的降维方法进行了比较分析,验证了该方法的有效性。最后,由于离群分布在密度较低的区域,本文利用粗糙集模型刻画离群点,提出了一种基于局部线性嵌入的高维空间离群点检测方法。根据所构造的粗糙集模型,将数据集分为稠密区域与稀疏区域。在构造数据集的局部近邻图的同时构造数据集正域的局部线性近邻图。为了更有效地区分离群点,在局部近邻图中增加一个权值,尽量将稠密区域的点与稀疏区域中的点分离开来。在低维空间中采用基于最小生成树的k-近邻启发式方法来检测离群点。将本文提出的方法与四种经典的离群点检测方法在八个数据集上进行对比实验,实验结果验证了新方法的有效性。
其他文献
本文考虑当收益是一个随机模糊变量时,投资者该怎样做出最优的投资组合决策.我们利用风险曲线理论给出一个投资组合的模型.在安全投资组合的前提下,使得投资收益最大化.考虑到
随着现代科学技术的进步,越来越多的药物和治疗方案被研发出来,但是新药和新的治疗方案的效果,是否能够达到已有的药物和治疗方案的治疗效果,都需要进行等价性检验。虽然等价性检
图的匹配可扩理论是图论中研究的主要问题之一.对导出匹配可扩图的研究来源于导出匹配及完美匹配的研究.Plummer[7]于1980年首先提出了n可扩的概念,随后同年[3]他又研究了关于
学位
非均质各向异性扩散方程-Δ·(Λ(x)▽u)=f在水文地质学、油藏模拟、等离子物理、生物学、金融数学等科学领域都有着重要的应用.该问题的离散方法有有限差分法、有限元方法、
类似改进的(点)Szeged指数,我们给出边Szeged指数一个新的形式,记作改进的边Szeged指数。连通图G的改进的边Szeged指数定义为  Sze*(G)=∑(mu(e|G+m0(e|G)/2)(mv(e|G)+m0(e|G)/2)
学位
在第一章中,作者研究了多叶解析函数算子Ip,α,βδ,λ,lf(z)在单位圆盘U内的一些性质,得到算子Ip,α,βδ,λ,lf(z)的中间定理。  在第二章中,研究了用算子Ip,α,βδ,λ,lf(z)定义的多叶
本文我们主要研究了非线性双曲守恒律方程组弱解的存在性及其相关问题。  第一章我们给出研究的问题及其研究背景(其中包括弱解的存在性和唯一性的研究概况),及得到的主要研
预投射代数是由Gelfand和Ponomarev在研究不含定向圈的有限箭图的表示理论时提出的一类重要的代数,它在代数表示理论、数学物理、微分几何、非交换代数等领域都起着十分重要的