论文部分内容阅读
数据挖掘(Data Mining,简称为DM)是指从数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在的、有用的信息。数据挖掘技术的发展为充分利用数据资源带来了契机。数据挖掘己成为当今人工智能和数据库技术的重要研究领域,也是 信息系统智能化的手段之一。 在数据挖掘研究中对关联规则的挖掘由 R.Agrawal等人[1]提出,是数据挖掘的重要内容 [9,10,38]。挖掘关联规则已经成为数据挖掘中令人感兴趣的快速增长的领域,被广泛地用于 商业和科学数据库。出现了众多挖掘关联规则的算法[1,8,11,18,19,21,22,23,24,25,26],其中 影响最大的是R.Agrawal等人提出的 Apriori算法[19]。许多算法都带有Apriori算法的思想: (1)求出候选项目集;(2)根据用户给定的阈值从候选项目集中选出频繁项目集。 本文研究关联规则挖掘问题。在数据挖掘中,按照传统的方法,频繁项目集的阈值是由 用户给定,这是基于领域专家的经验或用户的要求;本文认为阈值也可以通过分析数据库中 的数据特征计算出来,这样得到的阈值更具有客观性。本文提出关注矩阵的概念,它的元素 是0或1,是从对应的信息系统的属性和元组的某些特征得到的。由关注矩阵Mn×m可以得 出最大的全1子阵M1,M1对应的属性全体称为关注项目集,M1的行数m1与元组数n之 比 称为 M的关注阈值。 本文所做的研究工作如下: (1)对求较大全1子阵的方法进行了讨论、研究,给出了低复杂度的六个算法。这些算 法不同于Apriori算法,它们从关注矩阵M满足某种性质的行出发,迭代构造较大全1子阵 (在一定条件下能得出最大全1子阵),避开了求候选项目集的复杂过程,使算法成为有效算 法。 (2)提出了一维变换和二维变换的方法,用这两个方法消除关注矩阵的弱关注元素。该 方法基于逐步寻优的思想,在变换过程中多次调用求较大全1子阵的算法,在更多的情况下 求出最大全1子阵。 (3)研究了最大频繁项目集与关注项目集的关系。 (4)探讨了删除二部图中低度数顶点来缩小数据规模的方法。 (5)在为有兴市场调查公司编写的收视率分析软件中实现了上述算法,该软件用于录入 电视节目收视记录卡,计算各频道的收视率。把各算法用于红河电视网和玉溪电视网的收视 率调查数据,得到了一些分析结果。