基于数据仓库的多策略通用数据采掘工具MSMiner

来源 :中国科学院计算技术研究所 | 被引量 : 7次 | 上传用户:wudingyong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的飞速发展和广泛应用使当今社会积累了大量的数据,然而各种有用信息却被深埋在数据背后,难以为人们所用。因此研究如何从大量的数据中智能地、自动地采掘出有价值的知识和信息,具有十分重要的现实意义。 本文研究了如何结合数据仓库和数据采掘技术,提供多策略的、快捷有效的数据采掘手段,并在此基础之上实现了多策略通用数据采掘工具MSMiner。 论文研究了如何利用元数据统一管理和控制数据仓库和数据采掘任务,并提出了一种面向对象的元数据结构,将经过良好封装的元数据对象以层次结构组织起来,形成一种元数据对象模型,通过这种元数据对象模型统一存取和管理元数据,从而使系统具有良好的一致性和可维护性。 我们在文中讨论了如何设计实现一种简单但有效的数据仓库平台。该平台提供多种有效手段从各种外部数据源中抽取和集成数据,以主题为单位组织数据,并按星型模式建模,同时提供了有效的OLAP和可视化功能,为数据采掘任务提供经过良好预处理的数据来源。 本文提出了一种面向对象的数据采掘任务模型。数据采掘任务的每个步骤都用对象来表示,每个对象包含定义自身特征的属性和定义自身行为的方法,其中方法脚本用我们自定义的DML语言编写,各个步骤对象通过有向图结构组织起来,形成数据采掘任务模型。通过这种任务模型能够有效表达各种数据采掘任务。MSMiner系统实现了可视化的任务编辑环境,并提供了功能强大的任务处理引擎,能够快捷有效地实现各种数据采掘任务。 我们还设计了一种可扩展的算法库,以动态连接库DLL的方式集成各种数据采掘算法,并设计了开放的接口,能够灵活扩展用户自定义算法。 最后,论文介绍了MSMiner运用决策树方法在广东地税税务稽查计算机选案系统中的实际应用。
其他文献
由于不同的硬件平台、网络环境,操作系统,GIS开发平台以及数据库的差异,导致各部门建立起来的GIS系统成为“信息孤岛”,难于实现各GIS系统之间的互操作和互运算,无法达到资源共享
该文首先介绍了TCP/IP协议,分析了TCP/IP套接字socket的通信机制及进程间通信的方法;然后阐述了基于TCP/IP应用程序开发的方法;最后详细描述了基于TCP/IP应用程序的实例--实
互联网的普及和发展,特别是近年来移动互联网的发展,智能移动设备的流行,使得人们对于网络,尤其是移动互联网的依赖程度越来越高。网络已经成为人们获取信息的重要途径。于是
该文共分为四章.在第一章中主要介绍辆外数字电视技术的发展概况,进而引出条件接收系统的基本要领并论述了研发条件接收系统的意义和热点问题.第二章围绕条件接收系统的原理
该文主要研究肝CT图像的计算机辅助诊断系统.该系统的核心是通过一系列分割、增强和图像识别等处理技术检测二维的肝CT图像中的可疑的病变区,提供给医生作为诊断的参考.该系
由于信用卡的使用量不断的增加,网络的规模为断的扩张,对系统的可靠性的要求也越来越高,从而要注提高交易的成功率,减少易常的产生,维护用户的利益和银行的声誉.解决方法之一
该文研究基于重写归纳的高效定理证明技术,分析了现有的测试集方法和显式及隐式归纳法,总结了各种方法在证明定理效率上的提高程度,并在测试集方法的基础上,引入一个新的概念
虽然数据库的应用已有30余年的历史,数据库中也积累了大量的数据,但数据挖掘却是20世纪80年代后期兴起的一门学科。这门学科的发展主要是应用驱动的结果。随着各行各业,特别是商
该课题研究应用计算智能技术实现自主式移动机器人集群协同作业的方法.多机器人协作是机器人学中的一个研究热点,以往的方法在优化效率和自适应性方面不尽如人意.该课题的研
现有的网络管理软件需要真实的网络环境作为支撑,实现网络监视和管理的功能。如果在真实的网络环境中进行网络管理软件的开发和测试,不仅需要耗费大量人力物力进行网络环境的