【摘 要】
:
近年来,越来越多的应用环境中产生了数据流,这类数据都是连续的、有序的、快速变化的、海量的。如何从数据流中挖掘出有用信息引起了广泛的关注。聚类是一种重要的数据挖掘方法
论文部分内容阅读
近年来,越来越多的应用环境中产生了数据流,这类数据都是连续的、有序的、快速变化的、海量的。如何从数据流中挖掘出有用信息引起了广泛的关注。聚类是一种重要的数据挖掘方法,将其应用到数据流中也是一项重要的研究。传统的聚类方法无法在数据流中直接应用,需要研究能够适应数据流变化的聚类算法。在对数据流进行挖掘的同时,也要考虑如何对这样的海量数据进行存储。另外,传统的数据库管理系统在数据流环境中也不再适用,需要研究新的数据流管理系统。目前对数据流管理系统的研究主要集中在如何进行连续查询,而很少有在系统中融合数据挖掘的方法。
本文研究了数据挖掘的常用方法和目前已有的数据流聚类技术,给出了一种移动网格数据流聚类方法(MGDDS)。该算法改进了现有一些聚类算法的不足,克服了已有算法对非球形聚类效果不佳的问题,可以处理任意形状的类,并且算法的性能较好,聚类精度较高。另外对传统的数据库管理系统(DBMS)进行分析,指出其应用到数据流中的局限性,分析了数据流管理系统(DSMS)在数据流环境下的特点,及其与DBMS的主要区别。借鉴已经成型的几种数据流管理系统,融合数据流挖掘模块,给出了一个改进的数据流管理系统的框架结构。
最后,本文针对一个实际的数据流应用领域,对算法的性能进行了分析。给出了算法在网络入侵检测领域中的一个实现流程,并用常用于网络入侵检测的KDDCup99数据集进行实验,得到了较好的效果,验证了算法的性能。
其他文献
中芝8号(原名为74103)是中国农业科学院油料作物研究所用中芝7号之2为母本、江陵永光兴芝麻为父本,经有性杂交,混合选择育成。1986年4月通过湖北省农作物品种审定委员会审定
春稻旱种品种比较试验从一九七三年开展以来,历年结果均以“京引47”最好。表现耐旱性强,旱长时间长势好,灌水后恢复快,适应性广,空粃率低,千粒重高、米质好。最高产量试验
达呼里黄芪(Astragalus dahuricus)别名达乌尔种紫云英、驴干粮,是多年生豆科植物。株高50—100厘米,分枝很多,奇数羽状复叶,小叶11—21片,长圆形。花序短总状,紫红色,序有花
20世纪90年代,企业赖以生存的市场环境发生了巨大的变化,企业内部建立在分工理论基础上的组织形式受到了顾客、竞争、变化的挑战。市场的快速变化要求企业必须具有快速反应市场的高效流程。现代企业组织结构正由职能型组织向着扁平化,柔性化,网络化发展,其中流程型组织结构就是发展趋势之一,并且这种结构已经在部分企业得到应用和实施。流程型组织与传统职能组织相比较,具有一系列的特点,在导向性、效率性、应变性、整体
随着信息与通信技术(IcT)的发展,ICT产业逐渐显现了技术趋同和网络融合。而政府规制的改革、企业商业模式的创新以及消费需求的演化,使得ICT产业的融合范围进一步扩展到产品融
随着我国经济步入稳定发展阶段,并且城市化进程的不断提速,作为经济发展基础的公共设施项目需求日益增加;公共设施项目是全球竞争力的重要指标,对于提高我国综合实力有重要意义,加
在现代社会经济发展中,信息化的影响逐渐加深,已成为行业发展不可缺少的力量。近几年,“智慧”的理念自被提出便迅速被各界人士所接受并传播。物流作为现代化服务业,贯穿了整个生
二十一世纪,人类进入知识经济时代,知识已成为企业赢得竞争优势的资源基础。通过知识的共享,组织能够从有效的知识转移中提高知识的利用率,增强组织的竞争优势。
目前关于知
随着市场全球化和竞争的加剧,企业之间的竞争已经变成供应链之间的竞争。供应链管理涉及物流、资金流和信息流三个方面,其中信息流起到核心控制作用。信息共享是供应链协调的关
一王太堡农试埸位于宁夏永宁县引黄灌区,海拔1,116.7米,东经106°14′,北纬30°15′。常年初霜期在十月七日,最早的在九月二十五日,最晚在十月二十八日。七七年七月上旬到十