论文部分内容阅读
数据挖掘是当前KDD中的一个重要领域,它也是现在比较前沿的一个研究,很多算法都还不完善,现在数据挖掘技术主要应用在银行、电力等领域,主要用相关技术进行银行客户信用评价及电力客户信用评价。关联规则挖掘又是数据挖掘中非常重要的一个研究领域,它是由购物篮分析问题被提出的,从提出到现在研究人员对挖掘算法进行了很多的改进,同时也提出一些新的关联规则挖掘算法,但是仍然有一些不足的地方,所以本文就发现的一些不足给出自己的解决方案,本文也是基于经典的关联规则挖掘算法——Apriori算法进行算法改进的。本文的主要工作和结论如下:
(1)本文就现实世界中事务出现频率不一致和数据量是不断剧增的问题进行讨论,在经典的关联规则挖掘算法基础上,结合多最小支持度和增量式关联规则挖掘的各自缺陷,提出基于多最小支持度的增量式关联规则挖掘算法,应用最小项支持度可以挖掘出一些稀有项,而这些稀有项对客户来说又是非常重要的信息,由于在多最小支持度的概念下,剪枝函数不满足向下封闭性,所以能够保证在更大的项集上是频繁集的项不会被删除。
(2)传统的关联规则挖掘算法不能做增量式的挖掘,总是进行重复性的扫描数据库、重复性的挖掘,并不能保存以前挖掘的结果,而改进算法很好的解决了这些问题,而且改进算法随着数据量的增加会有新的规则出现,这也是算法改进的一个很重要的方向。
(3)将改进算法应用于电力客户信用评价项目,先用德国信用数据库对算法进行仿真实验,从有效性和实用性两方面对改进算法进行了全面的实验分析和检验,然后将改进算法应用于项目中,实验表明改进算法达到了这两方面的要求,能够有效的挖出一些稀有项而不会产生大量的无用规则,从挖掘结果中能够得到客户信用好坏与哪些因素有关,而且以简单易懂的形式给出结果,有效的辅助电力公司制定相关政策。