基于关系数据库的关联规则挖掘算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库技术的逐渐成熟、网络技术的迅速普及和计算机硬件的不断出新,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。为增强人们对这些海量数据的理解能力,数据挖掘技术近年来得到了快速发展。而关系数据库是众多行业和部门用于存储其生产、管理和科研等大量信息的重要形式,数据量的增长极为迅速。因此积极研究在关系数据库上的数据挖掘的有效技术具有极为广阔的发展前景。关联规则挖掘是数据挖掘的重要内容之一,1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间联系为目标,后来的研究者们对问题原型进行了多方面的改进和扩充。关联规则挖掘问题通常分解成两步进行:(1)找出所有满足最小支持度的项集即频繁集;(2)从频繁集中提取出满足最小支持度和最小置信度的规则。其中最关键的一步是频繁集产生。本文在对Apriori等事务数据库中布尔型关联规则的典型算法进行分析后,提出了一种关系数据库中频繁集产生算法。该算法的核心是利用SQL语言的聚集查询和连接等语句对关系数据库进行操作,完成频繁项集的搜索过程。由于SQL语言对关系数据库操作的高效性和算法与数据库管理系统的紧密性,所以该算法具有较高的挖掘效率。对于第二步规则的生成,目前绝大多数的研究算法主要是挖掘正关联规则。实际上,挖掘正关联规则和负关联规则是同样重要的。为了满足数据关系的完备性,我们需要负关联规则。另外,如何度量关联规则的不确定性是关联规则挖掘研究中的重要问题之一。而支持度-置信度模型是关联规则挖掘普遍应用的模型。它采用sup(X→Y)和conf(X→Y)来度量关联规则的不确定性。然而用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。因此,仅用conf(X→Y)来度量关联规则的不确定性是不够的。本文基于统计学相关系数的概念,给出了一个能同时挖掘正关联规则和负关联规则的PR_NR算法,通过实验表明该算法是有效的。
其他文献
USB总线技术是PC体系中一套全新的工业总线标准。目前,USB端口已成为微机主板的标准端口,并且有取代串口、并口等其他总线接口的趋势。它具有价廉、高速、低功耗、支持即插即
随着计算机的普及和网络的飞速发展,学校的教务管理工作网上办公已成为大势所趋。不仅在校园网上可以处理教务工作,随着办学规模的不断扩大、校内各部门及分校数量不断增加,教师
随着人们对物理世界智能化要求的加深,信息世界与物理世界产生更多的交互,这是一个必然的发展趋势,信息物理融合系统(Cyber-Physical Systems, CPS)正是伴随着这种趋势应运而
随着计算机网络的迅猛发展和广泛应用,很多企事业单位将自己的数据库连接到网络上,实现了信息共享,人们在享受网络带来极大方便的同时,应清醒地看到网上数据库数据正遭受黑客
随着高性能移动设备和Internet的普及,基于GIS的应用已突破传统领域向着嵌入式和网络化的方向快速发展。基于特定系统,特定环境的GIS系统开发已成为业界的研究热点。其中车载
随着计算机网络技术的飞跃发展,社会对信息化的要求越来越高。传统客户端/服务器结构的应用已经不能满足不断扩大的发布、维护和升级应用程序的需要。此时,基于组件技术的三
实时系统是一种带有时间约束的计算系统,这些系统的许多动作的完成是与时间相关的,即要满足一定的时间限制。为了确保实时系统的正确性和可靠性,需要对其进行严格的分析和验证。
随着TB量级的计算技术与通信技术的发展,TB量级的存储技术成为必然。人们对数据存储与读取速度的要求也越来越高。为了满足这些要求,出现了多种网络存储架构。存储局域网(SAN
随着社会的进步和科学技术的迅猛发展,我们已逐渐迈入以自动化和信息化为平台的智能化社会。智能小区是近年来产生并迅速崛起的一种新型住宅群,它为住户提供了一种更加安全、
随着Internet的飞速发展,各种异构数据交换越来越频繁,XML(eXtensible Markup Language)作为一种Internet上主要的数据表示和交换标准之一,应用范围非常广泛,如电子商务、Web