基于密度的局部离群数据挖掘方法的研究和改进

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liu0686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今计算机研究领域中一个热点问题,它的意义在于从海量数据中挖掘出有效的,新颖的,有潜在应用价值的并且最终可以被人们所理解的知识。传统的数据挖掘关注的是如何找到对数据集中的大部分数据通用的模式,比如关联规则,分类,聚类的相关研究。离群数据挖掘则是从海量数据中找出相对稀疏和孤立的异常数据模式。离群数据挖掘在异常电子消费检测、网络入侵检测、发现集合中的稀有元素以及检测病人对新治疗方案的异常反应等现实场景中有着重要的应用价值。离群数据挖掘主要有两个内容:离群点的挖掘和离群释义。本文关注的是如何有效挖掘离群点,在各种离群挖掘算法中,基于密度的局部离群挖掘方法是一种有效的挖掘算法,它从局部范围内考察数据的离群属性,采用离群因子刻画数据对象的离群程度,具有较强的实用性。本文主要针对基于密度的离群挖掘算法进行了研究和改进,具体的工作如下:①阐述了离群数据挖掘的研究背景、意义和国内外研究现状,描述了离群数据挖掘的工作框架,介绍了离群数据挖掘基础知识和相关技术,给出了离群挖掘算法的衡量标准。②综述了目前离群数据挖掘的典型算法,介绍了算法的研究动机和工作原理,分析了它们的优势和不足。③在深入分析现有基于密度的离群挖掘算法的基础上,提出了一种基于改进的离群因子—ISSDOF的新的有效的离群数据挖掘算法。计算该离群因子的算法在寻找数据点的近邻区域时采用了基于影响空间的局部离群点检测(INFLO)中影响空间的概念,然后通过改进基于链接的离群点检测(COF)中链式距离的思想提出了基于相似k距离邻居序列(SKDNS)的离群因子计算方法。④通过实验论证了本文提出算法的有效性,在模拟数据集上的实验,证明了本文算法能够准确挖掘数据分布较为复杂的数据集中的离群点,通过在UCI机器学习数据库中的真实数据上的实验对比,进一步论证了本文算法的优越性,最后运用本文算法和其他算法分析了篮球运动员的数据统计,显示出本文算法的通用性和多样性。
其他文献
准确地预测城市区域的人口流量,将会为政府和管理部门合理分配城市资源、改善市民出行体验、消除城市安全隐患等提供有效决策支持。城市区域人口流量预测是一个十分具有挑战性
伴随着计算机技术的发展和互联网的普及,人机交互在人们日常生活中显得越来越重要。随着图像处理、模式识别以及计算机视觉等相关技术的不断发展,人们开始研究更智能、更自然
句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。  在句法分析的研究中,依存
随着云计算的发展及应用软件的成熟,软件即服务(Software as aService,SaaS)作为云计算的一种应用形式,越来越受到重视,已逐渐成为中小企业应用先进技术的重要途径。SaaS应用交付
随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域
使用对有种溶解气体分析的方法进行变压器故障诊断,可在变压器运行期进行故障分析的特点,对于变压器维修模式的转变有很大的推动作用,具有重要的研究意义。本文在分析现有变压器故障诊断方法的特点及其存在问题的基础上,将极限学习机算法应用于变压器故障诊断。提出了基于极限学习机的油浸式电力变压器故障诊断方法。分析了不同隐藏层激活函数对极限学习机的诊断性能的影响,给出了诊断的具体实现方法。这种方法有不容易出现局部
随着互联网的不断发展,新型网络应用的不断涌现,特别是语音、视频等多媒体流量的增加,网络信息流量呈现爆炸式增长,带宽资源变得更加紧张,拥塞问题更加严重。另一方面,人们对
智能照明系统在我们的生活中随处可见,一套优秀的智能照明系统不仅能最大限度地节约照明能源,而且能够创造一个良好的、舒适的工作环境,从而提高工作效率。近年来,国家正在大力提
随着计算机技术的不断进步,人类创造的数据正以爆炸式的速度增长,传统的集中式的信息检索在面对海量数据时往往不堪重负,分布式的信息检索系统开始越来越受到人们的重视。集合选
随着互联网的发展和普及,医疗服务类网站越来越多,功能也更加的智能化,网上挂号功能也得到了普遍应用,用户可以不出家门就能在网上预约挂号,方便了用户就诊,传统的导医采用人工方式