基于子空间的离群数据挖掘算法研究及应用

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:shijincheng520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群数据挖掘是数据挖掘中的主要研究内容之一,通过离群数据挖掘,能够发现一些真实的、但又出乎人们意外的知识,因而引起了广大研究者的兴趣。传统的离群数据挖掘方法大多数是利用全局的观点看待离群数据,很难发现低维子空间中的偏移数据,而且很难直接应用到高维数据集中。本文先把高维子空间划分为低维子空间,对低维子空间中偏离数据(即:离群数据)挖掘算法进行了较深入的研究。主要研究工作如下:(1)给出了一种基于微粒群和子空间的离群数据挖掘算法。该算法首先将子空间看作微粒,根据偏离数据所在子空间的稀疏系数,采用带有变异算子的微粒群算法PSO来搜索子空间,并将子空间中的数据看作为局部偏离数据,即离群数据。最后,采用离散化的天体光谱数据作为数据集,实验结果验证了算法的有效性。(2)给出了一种基于子空间划分的局部离群数据挖掘算法。该算法首先将数据集划分为互不相交的子空间,利用偏斜度来度量子空间划分的优劣,并采用微粒群算法搜索最优划分子空间集;其次针对每个最优划分子空间,计算其数据对象的局部离群因子SPLOF值,并将SPLOF值作为度量数据对象的局部偏离程度。最后采用离散化的天体光谱数据作为数据集,实验验证了该算法具有不依赖于用户输入的参数、伸缩性强和运算效率高等优点。(3)在上述研究的基础上,以VC++和Oracle9i为开发工具,设计并实现了基于子空间的离群挖掘原型系统,并对软件功能模块及关键技术进行了详细描述。
其他文献
图像插值可以改变图像分辨率,实现图像的缩放显示,是高清数字电视平板显示中的关键技术,具有非常重要的理论和应用价值。ENO(Essentially Non-Oscillatory,基本无振荡)插值方法采
Java语言的面向对象、跨平台、语言级并发支持、安全等特性不仅使它在互联网领域得到广泛应用,也引起了嵌入式领域研究人员的高度重视,Sun公司希望能将Java语言改造成实时系
逆向工程技术是随着计算机技术的发展和成熟以及数据测量技术的进步而迅速发展起来的一门新兴学科与技术。它的出现,改变了原来CAD系统中从图纸到实物的设计模式,为产品的迅
模糊规划是解决带有模糊参数规划问题的一种统一的优化理论,它可以很好的解决数学模型的约束检验和模糊目标不易转化为清晰等价类的问题。到目前为止,用于求解模糊规划问题的
字符串匹配是计算机研究领域中的一个古老、经典而且被广泛研究的课题,是信息检索领域和计算机生物学领域等的关键技术之一。在当今的互联网时代,对匹配算法的需求日新月异,
TCP是基于有线网络而设计的,并认为网络发生的丢包是拥塞丢包。但是,无线网络常常伴随着无线发送错误丢包。在这种情况下启动拥塞控制机制就必然减小发送端的拥塞窗口。丢包
随着社会的进步、国民经济的发展,电能在日常生活中扮演着越来越重要的角色,企业电网实时监控系统旨在将电能这一抽象的商品通过计算机实现其可视化和可管理化。然而目前WEB环境下的电网实时监控系统仍然存在某些不足,不能很好地适应实时系统的实时性要求,主要表现在:(1)传统刷新技术通信效率低下,当通信数据量大时数据刷新慢且资源消耗大;(2)所依赖的关系型数据库系统只强调事务一致性、可恢复性,不显式地考虑时间
目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep
随着计算机技术的发展与3C产品的融合,数字家庭成为人们关注的焦点,数字家庭给人类带来了一种全新的生活方式。在医疗领域,数字化医疗逐渐普及,在数字电视上开发一个数字医疗互动
超限超重货物运输在铁路运输中占有重要地位,对于满足国家大型工程项目和国防建设的运输需求具有十分重要的意义。根据铁路信息化总体规划,铁道部专业运输部门确立了超限超重