论文部分内容阅读
数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一。所谓数据仓库,就是把一个单位的历史数据收集到一个中央仓库中以便于处理,它是支持决策过程的,面向主题的、集成的、随时间而变的、持久的数据集合,它实现了从数据到信息的转变,用以支持结构式即席查询、分析报告、和管理决策过程。数据挖掘(Date Mining),指的是从大型的数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的,事先未知的潜在有用信息。数据挖掘工具将为基于数据仓库的决策支持系统开发提供良好的技术支持,以发现数据仓库中潜在的知识。 本文设计了一个基于园区网络教务平台的数据仓库,并重点模拟实现了基于此数据仓库平台的数据挖掘系统。该挖掘系统的数据源是数据仓库平台中的学生成绩数据,分为三个主要的功能模块:数据准备、数据挖掘、结果表述。在应用时,需要对这三个功能多次迭代,以比较挖掘的结果,即完成数据评价的功能,从而得出对某一决策分析具有真正价值的知识。 在数据挖掘模块中,本文简述了四种数据挖掘技术:关联规则、序列分析、分类分析、聚类分析,重点研究了关联规则挖掘以及结合关联规则和聚类分析的联合挖掘算法。关联规则挖掘的研究中论述了经典的关联规则挖掘的思想和算法,结合应用平台提出了如下改进:增加兴趣度阈值来提高规则的精度;采用特殊的数据结构来提高挖掘的速度。联合挖掘中分析了应用关联规则对整体数据进行挖掘的弊端,提出先采用聚类分析将数据对象分组成为多个类或簇,再进行有针对性的关联规则挖掘,研究了聚类分析后如何进行关联规则的快速更新,提出了新型的数据挖掘方法。 在数据表述方面,仍以关联规则为主,讲述了自然语言表示、图形表示和网格表示三种表示方法。对于多用户的网络系统,设计了浏览器/服务器加中间件的三层结构模式,解决了多个远程网络用户访问数据挖掘结果的问题。