论文部分内容阅读
数据流挖掘是近年智能数据分析发展的一个新的研究阶段,与传统静态数据挖掘不同,数据流呈现的特征给数据挖掘提出了新的挑战。当前数据流挖掘研究的一个困境是虽然出现了大量高效的数据流挖掘算法,但缺乏有效的数据流挖掘系统合理利用这些算法。如何构建高效、快速和智能的数据流挖掘系统是数据流挖掘研究迫切需要解决的一个问题。为解决这一问题,本文从系统建模的角度提出一种扩展语义的预测模型标记语言,并研究其怎样应用于数据流挖掘系统的构建。首先,提出了一种扩展预测模型标记语言EPMML作为面向数据流挖掘系统构建的建模语言。论文针对目前数据挖掘的元数据标准预测模型标记语言PMML存在语言元素众多并且缺乏语义描述功能的缺点,在描述逻辑的基础上,开发了一种扩展语义的预测模型标记语言EPMML。设计了EPMML语言的逻辑基础——描述逻辑DL4PMML,分析了EPMML的体系结构和语言要素,证明了EPMML语言的可判定性,分析了EPMML语言的推理复杂性。其次,提出了数据流挖掘系统的元数据体系结构,并分析了基于EPMML的数据流挖掘系统元数据。从知识表示功能的角度,分析了怎样使用EPMML进行知识表示;从EPMML具有知识推理功能的角度,设计基于EPMML的数据流挖掘元数据一致性检测框架,验证了EPMML支持知识推理的正确性和有效性,并给出了示例来演示基于EPMML语言的知识推理和语义一致性检测。再次,提出了数据流挖掘系统的数据建模理论,并分析了EPMML语言在数据流挖掘系统数据管理中的应用。论文建立面向数据流挖掘的形式化数据建模理论,诠释流式数据集上的规则提取与知识发现。提出了数据流的数据模型,分析了流式数据集上概念的内涵和外延,阐述了数据流中规则提取和概念迁移的本质。从构建数据流挖掘系统的数据组件的角度,分析了EPMML语言怎样建模数据组件,并通过具体的示例演示EPMML语言对数据组件的描述以及关联规则的提取过程。然后,提出了数据流挖掘系统的算法管理模型,解决了目前数据流挖掘研究算法众多但利用率低的问题,并分析了EPMML语言在数据流挖掘系统算法管理中的应用。在算法组件中,将数据流挖掘的算法作为语义Web服务,结合EPMML语言,提出了面向数据流挖掘系统的算法管理框架AMF-DSMS。分析了怎样应用EPMML语言描述算法服务,设计了基于EPMML的算法服务接口。通过一个具体的示例说明框架AMF-DSMS的有效性。最后,设计了数据流挖掘系统的整体框架,阐述了各个组件和模块的功能,分析了框架对于数据流特征的适应性,给出了系统框架的行为语义,设计了数据流挖掘系统的建模层次结构,综合分析了基于EPMML的数据流挖掘元数据在系统中的作用。