数据库中数据挖掘理论方法及应用研究

被引量 : 42次 | 上传用户：ashwingangel

【摘要】

：

数据挖掘是目前数据库和信息决策领域最前沿的研究方向之一。本文研究数据库中数据挖掘，主要包括以下内容： 1 介绍了数据库和数据挖掘技术的发展动态，讨论了数据挖掘技术的研

【作者】

：

罗可

【发表日期】

：

2005年01期

【关键词】

：

数据库数据挖掘关联规则分类聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是目前数据库和信息决策领域最前沿的研究方向之一。本文研究数据库中数据挖掘，主要包括以下内容： 1 介绍了数据库和数据挖掘技术的发展动态，讨论了数据挖掘技术的研究现状、存在的不足和发展方向。分析了海量数据库产生的原因和特点。讨论了适于在海量数据库中进行数据挖掘的算法的基本特征，即算法应该具有线性计算复杂度O(n)。 2 对挖掘关联规则的算法进行了研究。首先，我们分析了Apriori算法的某些不足；随后，我们提出了一种基于Apriori的改进算法，新算法在某些场合能减少扫描数据库的次数，提高了算法的效率；随后，我们又提出了一种基于事务树的高效算法，用该算法挖掘频繁项目集只需要一次扫描事务数据库，不需要产生候选项目集，该算法的速度大约是Apriori算法的10倍；最后，我们提出了一种用Visual FoxPro实现Apriori算法的方法。 3 对关联规则的衡量标准进行了研究，指出了原衡量标准和若干改进方法的不足。目前，关联规则常用的衡量标准是支持度和置信度，如果按现有标准来生成关联规则，可能会发现大量冗余的、虚假的关联规则。为了减少关联规则挖掘中的无效关联规则，我们分析了产生问题的根源，提出了三种改进方法，即在关联规则的衡量标准中增加影响度、相对置信度或有效度标准，并分别定义了影响度、相对置信度和有效度。根据影响度、相对置信度或有效度的大小，将强关联规则分为正关联规则、无效关联规则和负关联规则。一般来说，只有正关联规则才是有效的关联规则，有时，它们只占强关联规则总数的一小部分。此外，我们提供了用新衡量标准进行关联规则挖掘的改进算法，并进行了实验。实验表明，我们提出的方法能明显减少无效的关联规则。 4 对目前比较优秀的各种分类算法进行了介绍、分析和比较。综合提出了分类算法的评价标准。随后，我们讨论了SPRINT算法。针对SPRINT算法的不足，提出了二种处理离散属性的新方法。这些方法能明显减少求最优分割点的运算量，提高算法的执行速度。最后，我们提出了一种基于抽样的快速数据分类算法。该算法既是可伸缩的，也可并行化。实验表明，该算法的速度是SPRINT算法的10-50倍。 5 介绍、分析和比较了各种常用的聚类方法，综合提出了聚类算法的评价标准和今后的研究方向。随后，在分析BIRCH算法不足的基础上，提出了一种基于抽样的聚类算法。测试结果表明，该算法在聚类速度方面明显优于BIRCH算数据库中数据挖掘理论方法及应用研究法。 6为了提高数据挖掘的效率，提出了采用约束和多维技术的方法进行数据挖掘。分析了数据挖掘中可能的约束类型，用关联规则挖掘讨论了哪些约束可运用于数据挖掘过程中。设计出了一个采用约束与多维技术的数据挖掘系统结构。 7讨论了数据挖掘技术在电力系统中应用，重点研究了最优潮流问题的高效算法。我们根据电力系统的特点，把无功界约束与一般非线性不等式约束分开来考虑，提出了一类投影渐近半光滑Newton型算法，实验表明，我们提出的算法具有良好的计算性能。关键词:数据库;数据挖掘;关联规则;分类;聚类;算法八

其他文献

基于J2EE的Web组件开发平台的研究与实现

随着基于Web的企业应用系统的发展，Web开发在一个企业应用系统的开发中占的比例逐渐增大，需要完成的功能也越来越多：Web开发也逐渐成为除数据库开发、应用逻辑开发等外，另一个应

学位

Web组件MVCServer pages控制层客户端UI

浅析胶莱盆地边缘层间滑动断层构造及其控矿机制

层间滑动断层构造产出于胶莱拉分盆地边部莱阳组砾岩与下伏下元古界荆山群变质岩系的不整合面上，是胶莱盆地东北缘蓬家夼和发云夼层间滑动角砾岩型金矿化的主要部位。层间滑动

期刊

层间滑动断层控矿作用层间滑动角砾岩型金矿胶莱盆地

机电设备技术在水利水电工程建设中的运用

本文重点针对机电设备技术在水利水电工程项目建设中的运用情况,从多个方面来对其进行专业化的探讨与分析,包括机电设备在水利水电工程建设中的安装及操作,应用过程中所存在

期刊

机电设备水利工程运用措施安装管理

乡村社会中的“面子”探究

通过界定“面子”的定义和在乡村社会中的内涵及功能，从村庄结构与社会关系的维度，分析了“面子”在三种不同类型村庄中运行的特征，以及对村民和村庄生活的不同影响。提出了乡村

期刊

面子面子行为村庄类型社会整合

公共服务均等化视角下新生代农民工住房保障模式选择——公共租赁房优势与发展路径

当前,新生代农民工已成为外出农民工的主体,如何解决其住房保障问题成为社会难点。以公共服务均等化理论为视角,以公共服务均等化的要素作为目前新生代农民工住房保障模式的

期刊

公共服务均等化住房保障公共租赁房

国库集中收付制度下预算会计改革研究

我国的预算会计作为预算管理的重要工具，主要是为预算资金分配与使用服务的。改革开放以来，预算会计制度适应经济体制和财政体制改革的需要，经历了多次修订和改革。为了建立

学位

预算管理国库集中收付预算会计政府会计权责发生制

1979—2009年山东半岛连岛沙坝-潟湖的变迁

以山东半岛3处连岛沙坝-潟湖(朝阳港潟湖、镆铘岛潟湖和林家流潟湖)为研究对象,利用1979—2009年间4期TM/ETM+遥感影像数据,提取了上述潟湖30 a间的变化信息,并应用分形方法

期刊

连岛沙坝连岛沙坝-潟湖体系变迁分形

中国股票市场有效性的统计研究

股票市场有效性理论是现代金融市场学的基础，它是研究股票价格对信息反应速度问题的学说。本文简要的介绍了股票市场有效性以及国内外研究的现状，对中国股票市场有效性检验

学位

股票市场有效性Hurst指数可预测性多重分形分析

静电纺丝法制备聚合物纳米纤维及其应用

纳米科学技术是在1～100nm尺度空间内，研究电子、原子和分子运动规律和性质的高技术学科。它的最终目标是直接可以操纵单原子，制造具有特殊功能的机械和相关产品。纳米材料是指三

学位

纳米纤维静电纺丝法标准静电纺丝机设计气喷气流/静电纺丝法气流/静电纺丝机聚砜过程参数喷丝头应用集成化膜过程水处理苦咸水淡化

同步发电机原动系统仿真器及其动态特性研究

原动系统(包括其调速系统)是影响电力系统机电暂态过程一个重要的因素，其特性与电力系统的运行情况密切相关，不仅可以影响系统频率和发电机有功功率的调整，而且对电力系统的暂态

学位

原动机TC787原动系统仿真调速器自平衡特性动态特性

数据库中数据挖掘理论方法及应用研究

与本文相关的学术论文