论文部分内容阅读
当前,数据挖掘应用到了很多行业,产生了较好的社会效益,因此它得到了很好的发展。随着应用的不断扩展,数据挖掘系统之间进行挖掘模型交流的需求越来越强烈,而预测模型标记语言(PMML)的出现正好满足了这种需求。 本文在分析PMML标准的基础上,运用模块化设计思想、面向对象技术、Java技术和XML技术等开发了一个支持预测模型标记语言的软件包。该软件包可以提供对PMML文档的输入和输出,同时具有跨平台特性。本文主要的研究内容如下: 1、本文开发了一个支持预测模型标记语言(PMML)的软件包。本文通过对PMML标准及其应用环境的分析,提出了具体的开发需求,进而进行了系统总体设计、详细设计以及最终的代码实现。本文将对PMML标准的支持分为输入和输出两大部分,然后针对PMML标准的各个部分进行了相应的模块设计和实现。通过输出模块可以将挖掘模型导出,而通过输入模块则可以将挖掘模型导入,通过它们从而实现了挖掘系统之间通过PMML进行模型交换的需求,进而实现了对PMML标准的支持。 2、本文运用Java技术实现了软件包的跨平台特性,同时运用模块化设计思想和面向对象技术进行设计和开发。本文为了实现软件包的跨平台特性,选择了使用Java语言进行开发。同时设计了该软件包与其它挖掘系统的关系,便于进行整合。另外在设计过程中采用面向对象技术和模块化设计思想,将整个功能划分解为不同的模块,各个模块之间保持一定的独立性,降低了系统的耦合性,从而可以方便地对该软件包进行修改和扩展。 3、本文的PMML软件包实现了可配置性,是本文的一大创新点。本文通过采用JAXP技术为底层XML技术(DOM和SAX)的实现提供了一个可配置层。通过JAXP技术进行配置以后,可以方便对底层选用的XML解析器进行更换,同时不会影响上层的具体实现。通过对底层XML解析器的配置,可以增强本软件包的适应能力,也增加了软件包的灵活性。 4、本文最后通过两个应用例子来说明本软件包的使用,同时用来验证本软件包的基本功能,从而利用它满足了两个挖掘过程进行挖掘模型交换的需求。