数据挖掘的关联规则研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:df_871
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,简称为DM)是指从数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在的、有用的信息。数据挖掘技术的发展为充分利用数据资源带来了契机。数据挖掘己成为当今人工智能和数据库技术的重要研究领域,也是 信息系统智能化的手段之一。 在数据挖掘研究中对关联规则的挖掘由 R.Agrawal等人[1]提出,是数据挖掘的重要内容 [9,10,38]。挖掘关联规则已经成为数据挖掘中令人感兴趣的快速增长的领域,被广泛地用于 商业和科学数据库。出现了众多挖掘关联规则的算法[1,8,11,18,19,21,22,23,24,25,26],其中 影响最大的是R.Agrawal等人提出的 Apriori算法[19]。许多算法都带有Apriori算法的思想: (1)求出候选项目集;(2)根据用户给定的阈值从候选项目集中选出频繁项目集。 本文研究关联规则挖掘问题。在数据挖掘中,按照传统的方法,频繁项目集的阈值是由 用户给定,这是基于领域专家的经验或用户的要求;本文认为阈值也可以通过分析数据库中 的数据特征计算出来,这样得到的阈值更具有客观性。本文提出关注矩阵的概念,它的元素 是0或1,是从对应的信息系统的属性和元组的某些特征得到的。由关注矩阵Mn×m可以得 出最大的全1子阵M1,M1对应的属性全体称为关注项目集,M1的行数m1与元组数n之 比 称为 M的关注阈值。 本文所做的研究工作如下: (1)对求较大全1子阵的方法进行了讨论、研究,给出了低复杂度的六个算法。这些算 法不同于Apriori算法,它们从关注矩阵M满足某种性质的行出发,迭代构造较大全1子阵 (在一定条件下能得出最大全1子阵),避开了求候选项目集的复杂过程,使算法成为有效算 法。 (2)提出了一维变换和二维变换的方法,用这两个方法消除关注矩阵的弱关注元素。该 方法基于逐步寻优的思想,在变换过程中多次调用求较大全1子阵的算法,在更多的情况下 求出最大全1子阵。 (3)研究了最大频繁项目集与关注项目集的关系。 (4)探讨了删除二部图中低度数顶点来缩小数据规模的方法。 (5)在为有兴市场调查公司编写的收视率分析软件中实现了上述算法,该软件用于录入 电视节目收视记录卡,计算各频道的收视率。把各算法用于红河电视网和玉溪电视网的收视 率调查数据,得到了一些分析结果。
其他文献
日前,由教育部科学技术司组织的“第三届中国高校精品.优秀.特色科技期刊奖评比活动”落下帷幕。经评审,《采矿与安全工程学报》继2006,2008年连获中国高校特色科技期刊奖后,
该文分两部分:第一部分(含前4章)首次系统地建立了年龄结构的SEIR流行病模型、垂直传染的SEIR模型、带二次感染和接种疫苗的SEIR模型和总人口规模变化的SEIRS模型.运用泛函分
霍奇理论是复几何与代数几何中最重要的分支之一。紧凯勒流形的一系列进展都建立在霍奇分解定理及其相关定理(称为“凯勒包”)之上。复数域上的霍奇理论的核心是调和形式的理论
语文课堂提问是指在课堂教学中,教师为使学生实现获取语文知识、形成语文技能、提高语文素养而采取的一种教学方式。语文课堂提问必须结合学生的知识水平设计问题,从而引导学
5月,正是花开的季节。然而,一名年仅16岁的男孩陶汉武却在县政府上访中意外死亡,永远告别了属于他的花季,而整个事件的发生更是令人不禁扼腕沉思。事件的起因是多年前两个村
现代科学与工程计算离不开方程的求解,对于无法得到实际解的方程,数学家们提出了有限差分法,有限体积法,有限元法还有谱方法等常用的数值求解方法,这些方法对于一般性的椭圆问题,抛
本文研究了有限维余代数和有限维Hopf代数的分类,所使用的工具主要是余代数的树结构。  我们首先构造了余代数的树结构。设C是一个非余半单余代数。由C的余根分解C=C0(+)I给
超图是图概念的很自然推广,它们是另一种形式的集合系统.把图的理论如何推广到超图中去是超图研究中的一个核心问题,而其中超图和超树的计数又是其中很重要的一部分.在[2]和[
因果关系的概念在大多数的科学研究中占据着中心的地位,流行病学也不例外.随机化是确定因果关系的标准手段.然而,当随机化不可能实施时,比如在观察流行病学研究中,利用对照组
该文提出了具有广泛应用背景的一类模型-泛函系数因归模型.并从以下几个方面进行了研究:(1)地给出了泛函系数模型的局部加权最小二乘估计方法以及与之相关的局部权系统和其中