论文部分内容阅读
大型公司拥有多个子公司,每个子公司一般分布在不同的地区,大型公司一般使用多数据库系统管理业务。多数据库系统的知识发现对于大型公司的管理者是一种迫切的需求。简单地将子公司数据发送到总公司,进行集中挖掘,弊端很多,因此开发一种多数据库挖掘系统是数据挖掘的一个新的挑战。面向应用的数据库选择合并挖掘方法效率低下且容易造成信息丢失;分布式挖掘方法不产生中间规则且平行挖掘算法部署困难。独立于应用的多数据库最优分组挖掘方法针对数据挖掘过程的三个阶段,重新设计了多数据库挖掘的过程:在数据准备阶段加入多数据库最优分组过程;然后单独挖掘每一个数据库,产生本地规则集;在知识表示评价阶段进行模式分析和模式合成工作:模式分析产生高票规则、例外规则和建议规则;模式合成不仅产生全局规则,还产生支持度置信度高于全局规则的分组规则。三个阶段的过程完整彻底地完成了多数据库挖掘任务。本文的研究工作主要包括以下三个方面:(1)总结了多数据库挖掘技术研究的基本情况。包括多数据库挖掘问题的重要性、基本结构和特点;现有的两种多数据库挖掘技术的基本内涵和弊端;数据库间相似度计算方法和多数据库的分组方法;多数据库挖掘中的数据库分类技术。(2)提出一种基于模糊聚类分析的多数据库最优分组技术。该技术较现有的两种多数据库挖掘技术有明显的优势,整体时间性能很高,能够获得更有效的全局决策支持信息。并且该技术在算法设计上有创新,能够对分类数据进行模糊分析。(3)提出分组规则概念,并利用规则合成技术证实了分组规则的优越性。分组规则是分组内的全局规则,它缩小了决策范围,使决策对象更集中,从而降低了成本、提高了效果。