【摘 要】
:
本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出来的数据不再是当作噪声数据去掉,
论文部分内容阅读
本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出来的数据不再是当作噪声数据去掉,具有一定的价值和实用性。本文设计了一种基于相异度的离群数据挖掘算法,其基本思想是:首先运用正区域约简算法来求取图书数据集的相对约简,消除冗余属性,再运用相异度公式进行离群数据的检测,加快了离群检测的速度。本文主要的研究工作包括:对目前流行的粗糙集理论进行了介绍,并分析了三种主要粗糙集约简算法,即基于区分矩阵的属性约简算法、基于信息熵的属性约简算法和基于代数形式的属性约简算法。本文采用了正区域的属性约简算法,此算法更贴近粗糙集的约简本质,算法简单,且容易理解。深入研究各种离群数据的挖掘模型的优劣,设计了一种基于相异度的离群数据挖掘算法,此算法的基本思想是:运用粗糙集的正区域属性约简算法将高维数据集降为低维数据集,再利用改进后的相异度公式对此约简后的数据集进行离群数据的检测。同时通过分析涂丽红,杨丽萍等提出的基于相异度的孤立点挖掘研究的种种缺点证明了本文的相异度离群数据挖掘算法的优势。为了更好的实现本系统的灵活性,用户可以自定阈值,限定取值范围,输入的阈值越小,得到的离群记录就越精确,反之,得到的离群记录就越粗糙。本系统用在图书销售数据集中具有一定的灵活性和实效性。
其他文献
随着网络技术的飞速发展,网络安全占据着越来越重要的地位,单纯的被动的静态安全防御策略已无法满足现实的需求了,而采用动态防御的入侵检测系统随着技术的发展逐渐显示出其
作为社会文化的组成部分,图书馆经历了从手工到自动化,从自动化到网络化再到数字化的发展过程。而迅速增长的文献量和全开放的阅览、外借模式引发了文献服务与文献管理之间的矛
本文以无线传感器网络为研究背景,主要研究在以数据为中心的存储策略(Data-Centric Storage,DCS)中如何高效利用传感器节点的有限能量进行数据查询的问题,设计了划分区域的DC
在互联网环境下,产生了大量的图像文件数据,为了提供这些图像文件信息的检索和分析,首先要解决检索过程中索引存储问题,而目前已有的图像文件信息检索引擎的检索效率和精确度
ADSL作为目前国内最流行的互联网宽带接入方式之一,通过一条普通电话线,可以向用户提供512K到8M带宽不等的宽带接入,让用户尽情享受网络学习、视讯会议、可视聊天、视频点播、在
作为一种很重要的自动验证技术,模型检测已得到广泛研究,取得了丰硕的成果并应用到众多领域,引起学术界、工业界的密切关注。模型检测的一般原理是用状态迁移系统( M )表示系
随着计算机技术与教育理论的不断融合促进了计算机辅助教育的发展,计算机辅助测试作为计算机辅助教育的重要部分而受到越来越多的关注。在计算机辅助测试系统中,组卷模块的设计
近年来,计算机视觉技术在水果图像识别方面得到了广泛的研究和应用,但随着经济的快速发展,人们生活的提高,农贸市场和超市里售卖的水果品种越来越多,而且其形状,纹理和大小都
体育比赛的主办方为了充分发掘广告带来的商业利润,总是希望尽可能地在比赛场地周围放置更多的广告牌。但是在实际的比赛现场,出于保护运动员和保证观众观看质量等方面的考虑
在无线传感器网络(WSN)的应用中,物理信息与位置信息关联才具有实际的运用价值,由此无线传感器网络节点的位置信息至关重要,是传感器网络研究的难题及热点。本文以导航系统的