论文部分内容阅读
本文为作者在企业博士后期间一些主要研究工作的报告,主要为数据仓库和商务智能项目过程研究方面的内容.商务智能已经成为企业创造更多盈利的关键,商务智能将是下一个热点,数据仓库和BI项目实施前景广阔.但商务智能项目实施成本很高,容易失败,商务智能的实施需要高效的过程支持.本报告首先介绍了数据仓库和商务智能领域的一些基本概念,讨论了数据仓库和商务智能项目过程的一些构建原则,提出一种数据仓库过程动态模型,定义了过程的元模型及主要概念.该模型中将工程流程分为技术体系构建和分析应用开发两个平行又相互独立的部份,强调开始初期构造原型的重要性.该模型采用线型模式和迭代模式结合的开发模式.该模型能够涵盖大部分数据仓库项目的开发流程和活动.我们定义了核心流程和活动,定义了角色和工件.本报告也讨论了一些关键数据仓库设计问题.指出数据仓库的数据加载不仅是过程设计问题,而且在数据仓库的逻辑设计中就要设计相应的机制.通过一个实例讨论了数据仓库中的汇总星型模式设计方法,以及聚集过程在ETL工具PowerMart中的设计问题.数据挖掘(DM)是非常具有挑战性的工作,数据挖掘过程是多个因素耦合的决策问题.文中讨论了当前流行的DM过程CRISP-DM和SEMMA的不同之处及优缺点.本报告从机器学习、统计和数据质量角度对挖掘有效性作了讨论,认为一个真正高效的过程应该面向算法,强调探索,以挖掘出高可靠性的具有商业价值的知识目标,并紧跟技术的发展.本报告给出数据挖掘过程的多维视图,将算法分解为组件维、模型维和过程维等维度,以此提出新的DM过程的框架.数据挖掘应用中常涉及新算法的使用,本报告开发了一种数据挖掘新算法,本报告提出一种采用模糊划分处理连续变量的模糊朴素贝叶斯分类器,每个连续变量都有一个由模糊划分引导的有限模糊取值的集合.该方法采用梯度下降法去调整模糊划分集合的参数,文中验证了模糊朴素贝叶斯分类器的有效性和鲁棒性.