论文部分内容阅读
当今的社会处于信息爆炸的时代,企业数据仓库中数据的数量日益庞大。数据挖掘应用能够从数据中抽取潜在的有价值的知识,提供更丰富的数据支持,帮助企业领导在业务管理和发展方面做出正确的判断。基于可复用构件的开发,能够节省开发的成本并提高软件质量。因此通过建立数据挖掘构件库,能够很好地解决数据挖掘应用开发过程中软件重用的问题。然而实际的使用中,普通的用户往往存在专业背景知识不足的问题,无法像专业人才那样运用数据挖掘构件,使得数据挖掘应用难于得到推广。
本文在讨论构件库的现状和已有的构件检索方法的基础上,参考国际数据挖掘标准流程CRISP-DM,在数据挖掘构件库系统中加入知识库,建立了规则库、方案库以及构件检索词库,以导航的方式,为用户提供构件推荐。首先,系统根据数据挖掘流程和输入数据的统计分析结果匹配对应的规则,推理得到数据挖掘构件方案,供用户选取;然后,系统根据用户所选择的方案,提供给用户具体的数据挖掘构件下载;最后,用户可以将下载后的构件在数据挖掘工具的设计面板中连接成完整的数据挖掘工程。整个系统将数据挖掘(DM)工具和数据挖掘构件库整合起来,从而扩充了DM工具的功能,使其可以灵活地复用构件库中的构件,同时也使构件库可以更好地利用DM工具作为构件组装的平台,方便构件的复用,提高了数据挖掘构件的复用水平,降低了数据挖掘技术的使用门槛,有利于数据挖掘的推广。本文还讨论了知识库的相关理论,包括知识库定义,知识表示方法,产生式系统以及Rete网络。最后设计实现了一个跨平台、多用户式的数据挖掘构件库系统,实现了其中的知识库系统,并且定义了规则库中规则的格式,其灵活的表示方法为增加新的规则以及方案的扩展提供了便利。
本文研究工作的主要创新点如下:
1、建立支持数据挖掘构件库的知识库,以知识表示数据挖掘构件,构建了一个可灵活修改的的规则库,一个基于CRISP-DM数据挖掘流程的方案库,并且构建了一个构件检索词库。
2、利用知识库系统中的推理引擎以及规则库,设计了针对数据挖掘构件的推荐策略,实现了知识库对数据挖掘应用开发流程的控制。
3、以导航的方式检索构件,结合数据挖掘开发流程模型,对流程模型进行细分,由此推导得到方案,供用户下载相应的构件。通过增加与用户的交互过程,提高了检索构件的搜全率。
4、通过知识库将DM工具和数据挖掘构件库系统紧密的联系起来,成为一个能够进行构件管理、构件组装以及支持构件复用的数据挖掘开发环境。