基于中间知识库的可继承聚类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:eddiechen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今研究热点,它是从大量的、不完全的、有噪声的实际应用数据中,提取隐含在其中的、事先未知的、但又潜在有用的知识的过程。 随着技术的进步,数据挖掘的对象发生很大变化,已由静态数据集变化为动态数据流,本文研究对象正是这种大规模连续动态环境,其数据通常是GB级甚至是TB级的,数据按照一定的规律不断更新。在这种环境中,已有的知识发现方法面临新的问题,主要体现在以下几点:(1)数据挖掘效率不高。(2)处理能力跟不上。面对大规模数据,囿于原有挖掘模型,很多传统算法根本无法处理。(3)无法满足实时更新的需求。数据是动态的,而且频繁更新,因此挖掘过程需要不断进行,来跟踪数据的变化。而传统算法无法实现快速更新,满足这种实时需求。 针对上述困难,围绕聚类问题,本文采用可继承的观点来处理大规模动态环境的数据聚类分析,不仅采用内存中的增量继承方式,而且把挖掘过程中有价值的知识固化为外存的永久继承,实现知识产生知识,从而提供快速灵活查询。主要工作包括: (1)提出知识发现中可继承问题,给出其中关键定义:进化基、进化冲量、进化操作、继承度和继承灵活性,并以此为基础,把可继承问题进行分类,给出不同类型可继承的研究方向和重点。分析了传统Fayyad模型、强度挖掘模型和简单增量模型对处理大规模连续动态环境的不适应性,剖析传统挖掘过程中挖掘算法的参数依赖,提出基于中间知识库的可继承聚类模型并给出其中中间知识的定义,界定其可加减性、等价性、浓缩性。 (2)给出聚类中间知识的设计:EDS(ExtendedDataSummary)和ECF(ExtendedClusteringFeature),给出他们的统计学基础,分析其加减性、压缩性和时空代价,说明其合理性和对可继承聚类模型的适用性;给出三种中间知识获取方法:1)基于距离的方法,根据每个单元簇的均方根半径判断新加入的点的归属2)基于网格的方法,采用动态的网格来获取中间知识,针对网格的稀疏特性,使用哈希技术来定位每个项目。3)动态自组织特征影射方法。根据计数器变量并引入累积误差,来决定神经元的增加与删除,从而更好的适应动态环境。 (3)给出外存中中间知识元数据、时间索引、中间知识库、中间知识表的结构定义,采用扩展的BNF语法给出中间知识结构化模式查询语言IKMQL,进行中间知识的管理和查询。在分析时间粒度的基础上,给出三种中间知识保存方法,分别计算其时效误差,分析和证明了每种方法在中间知识保存过程中的存储容量和查询精度。 (4)设计了基于中间知识库的划分聚类方法,给出中心变化时的聚类质量变化公式;在层次算法中,给出相异度矩阵的递推公式,并改进其合并策略以提高效率;在基于密度的算法中,给出同质密度和密度相连的定义,以发现不同密度层次的聚类;在基于模型的算法中,把标准方差插入到密度函数,给出单元簇成员在M步中发生的简化公式。在基于窗口操作的算法中,本文给出窗口相减操作过程。 (5)开发原型系统,验证中间知识获取、存储和维护方法以及本文提出的运行于其上的各类算法的正确性和效率,分别跟采样以及传统算法作对比,证明了本文提出聚类模型对大规模连续动态环境的处理能力;通过对噪声和起伏数据的输入,验证模型的稳定性。通过在不同数据规模和维度上的运行,分析其可伸缩性。
其他文献
机织物CAD/CAM技术的核心内容是织物组织的计算机辅助设计,只有较好地解决织物组织的计算机辅助设计,才会有织物外观图形的真实感模拟,才会使电子多臂/自动轧纹板成为可能,从而实
虚拟仪器(Virtual Instruments,VI)技术是现代计算机系统和仪器系统技术相结合的产物,是当今计算机辅助测试领域的一项重要技术。它推动着传统测量仪器朝着数字化智能化、模
随着科学技术的发展,机械设备越来越复杂,设备运行中发生故障或失效可能会造成巨大的损失。因此,及时地监测设备健康状态,可以有效保障设备安全可靠运行,防止事故的发生。本文以滚
以网络科技和知识管理为特征的新经济下,基于三层结构(ERP/MES/PCS)的CIMS体系已成为综合自动化研究的热点。钢铁企业一体化生产计划系统是钢铁企业制造执行系统(MES)中的重要
控制器局域网(CAN)最初是由德国BOSCH公司为汽车的监测、控制系统设计的。它是一种有效的支持分布式控制或者实时控制的串行通信网络。由于其具有多主机、高性能以及高可靠性
自1980年以来,出于工程实际应用的需要,Meyer构造了紧支的,光滑的函数,这些函数的尺度的伸缩和平移构成了L~2(R)的基,导致小波研究的蓬勃发展。进入上世纪90年代,由于其具有
One to One营销是分析型CRM(Customer Relation Management)的战略核心,然而目前世界上大部分CRM软件不具备对One to One营销问题的优化求解能力,不能够精确获得对企业最有利
本文研究和实现的基于嵌入式Linux 的流媒体机顶盒是为了让广大的普通家庭通过电视机享受到网络、数字媒体、计算机技术所带来的丰富应用,特别是让那些不习惯于操作PC 的儿童
以前的监控系统常常是将少量的,大功率的,并且具有很强的数据分析能力的传感器安放在距离目标有一定距离的观测点进行监控,它的缺点是:获得的数据很不准确,需要传感器具有很
红外图像小目标检测多级滤波算法通过改变基本滤波模板级数,获得不同带宽的滤波模板,达到同时检测大小不同小目标的能力。本文在详细论述多级滤波算法的基础上,提出多级滤波