论文部分内容阅读
摘 要:关联规则发现交易数据库中不同商品及其交易记录之间的联系,这些规则可以反映顾客的购买行为模式,本文基于STAR-IP管理系统探讨了数据挖掘之关联规则挖掘的应用。
关键词:关联规则;支持度;可信度
关联规则挖掘是一项非常重要的数据挖掘技术,关联规则挖掘主要是面向大型的数据仓库而言的,它在商业中的用途极其广泛。
1.基本概念
关联规则中最重要的概念就是“支持度”和“可信度”。
设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且T?I。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果X?T,那么称交易T包含X。
一个关联规则是形如X?Y的蕴涵式,这里X?I,Y?I,并且X?Y=F。规则X?Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X?Y),即:
support(X?Y)=|{T:X?Y?T,T?D}|/|D|
规则X?Y在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X?Y),即:
confidence(X?Y)=|{T:X?Y?T,T?D}|/|{T:X?T,T?D}|
给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
2.在STAR-IP系统中挖掘关联规则
本文在利用关联规则分析STAR-IP系统的数据库时所使用的数据并非是该系统在实际运行中的所得到的数据,而是模拟的数据。
对客户的分析大致可以分为三种情况:客户的地区分布、客户的类型分布和客户的消费习惯,由于2004年以来大大增加了发行量,而且所发行的IP卡都已经销售出去了,这段时间内用户注册的数量大大增加,而且也出现了小面额IP卡的用户注册信息,不过小面额卡的用户注册信息中仍然只有学生用户,其他用户注册信息仍然只限于大面额卡的购买者。
对学生用户群体的注册资料进一步分析,我们可以发现不同地区的学生用户群体对不同面额的IP卡的需求不一样:20元、30元、50元和100元四种面额东部地区人数分别是11、13、28和55,南部地区人数分别是10、15、28和59,西部地区人数分别是5、6、33和8,北部地区人数分别是4、6、31和8。
同样对其他用户群体的注册资料也作进一步地分析,我们也可以发现不同地区的其他用户群体对不同面额的IP卡的需求也不一样,详细情况:50元和100元两种面额东部地区人数分别是10、29,南部地区人数分别是31、35,西部地区人数分别是4、5,北部地区人数分别是6、11。
进一步分析,挖掘出与学生用户群体相关的关联规则。
在表1中,每个地区的用户都购买了两种用途的卡,所以最小可信度定为40%,地区对应用途总共有8种情况,所以将最小支持度定为8%;同样在表2中,每个地区的用户都购买了四种面额的卡,所以最小可信度定为20%,地区对应面额总共有16种情况,所以将最小支持度定为4%。
3.结论与展望
任何与销售相关的一家公司都会积累大量的交易数据,在这些交易数据中详细地记载着历年以来公司对应用户和产品的业务数据,发现这些信息、知识和规律并利用得到的结论来对公司的决策作辅助支持就成了非常有前景的研究领域。对于关联规则挖掘技术的未来趋势以及前景,从总体现状来看还是比较乐观的。
参考文献
[1]程继华.多层次关联规则的有效挖掘算法.软件学报,1998,8(9):937-941
[2]陈栋,徐洁磐.一个通用知识挖掘工具.计算机研究与发展,1998,6(35):338-343
[3]周欣,沙朝鋒.兴趣度:关联规则的又一个阈值.计算机研究与发展,2000,9(37):627-633
(作者单位:台州职业技术学院)
关键词:关联规则;支持度;可信度
关联规则挖掘是一项非常重要的数据挖掘技术,关联规则挖掘主要是面向大型的数据仓库而言的,它在商业中的用途极其广泛。
1.基本概念
关联规则中最重要的概念就是“支持度”和“可信度”。
设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且T?I。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果X?T,那么称交易T包含X。
一个关联规则是形如X?Y的蕴涵式,这里X?I,Y?I,并且X?Y=F。规则X?Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X?Y),即:
support(X?Y)=|{T:X?Y?T,T?D}|/|D|
规则X?Y在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X?Y),即:
confidence(X?Y)=|{T:X?Y?T,T?D}|/|{T:X?T,T?D}|
给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
2.在STAR-IP系统中挖掘关联规则
本文在利用关联规则分析STAR-IP系统的数据库时所使用的数据并非是该系统在实际运行中的所得到的数据,而是模拟的数据。
对客户的分析大致可以分为三种情况:客户的地区分布、客户的类型分布和客户的消费习惯,由于2004年以来大大增加了发行量,而且所发行的IP卡都已经销售出去了,这段时间内用户注册的数量大大增加,而且也出现了小面额IP卡的用户注册信息,不过小面额卡的用户注册信息中仍然只有学生用户,其他用户注册信息仍然只限于大面额卡的购买者。
对学生用户群体的注册资料进一步分析,我们可以发现不同地区的学生用户群体对不同面额的IP卡的需求不一样:20元、30元、50元和100元四种面额东部地区人数分别是11、13、28和55,南部地区人数分别是10、15、28和59,西部地区人数分别是5、6、33和8,北部地区人数分别是4、6、31和8。
同样对其他用户群体的注册资料也作进一步地分析,我们也可以发现不同地区的其他用户群体对不同面额的IP卡的需求也不一样,详细情况:50元和100元两种面额东部地区人数分别是10、29,南部地区人数分别是31、35,西部地区人数分别是4、5,北部地区人数分别是6、11。
进一步分析,挖掘出与学生用户群体相关的关联规则。
在表1中,每个地区的用户都购买了两种用途的卡,所以最小可信度定为40%,地区对应用途总共有8种情况,所以将最小支持度定为8%;同样在表2中,每个地区的用户都购买了四种面额的卡,所以最小可信度定为20%,地区对应面额总共有16种情况,所以将最小支持度定为4%。
3.结论与展望
任何与销售相关的一家公司都会积累大量的交易数据,在这些交易数据中详细地记载着历年以来公司对应用户和产品的业务数据,发现这些信息、知识和规律并利用得到的结论来对公司的决策作辅助支持就成了非常有前景的研究领域。对于关联规则挖掘技术的未来趋势以及前景,从总体现状来看还是比较乐观的。
参考文献
[1]程继华.多层次关联规则的有效挖掘算法.软件学报,1998,8(9):937-941
[2]陈栋,徐洁磐.一个通用知识挖掘工具.计算机研究与发展,1998,6(35):338-343
[3]周欣,沙朝鋒.兴趣度:关联规则的又一个阈值.计算机研究与发展,2000,9(37):627-633
(作者单位:台州职业技术学院)