论文部分内容阅读
随着2G、3G网络的大范围覆盖,各个电信行业都储备了海量客户数据,这些数据中包含了客户的基本信息、消费信息和各种业务办理信息,由于不同消费能力的顾客所创造的价值是大不相同的,顾客的消费行为特征也存在了很大的差异,各大运营商为了进一步提升对客户的服务质量和提高企业利润,越来越重视对客户数据信息的管理,如果能从中发现有利于企业发展的有价值的信息,则会帮助企业制定正确的营销策略,提高企业效益。数据挖掘技术通过对大量数据进行分析,发现有价值模式或规则。运营商可以通过数据挖掘技术了解客户的构成、客户的群体特征、业务的关联规则,从而提高客户价值增强自己的竞争力。本文首先介绍一些数据挖掘方面的基本知识,介绍了聚类算法、分类和关联规则算法中的几种算法,重点介绍了经典Apriori算法和AprioriTid算法,并提出了这两种算法的缺点和不足。在此基础上提出一种基于压缩集的改进的AprioriTid_M算法,通过有效的裁剪减少无效项集的产生,同时可以减少产生候选项集,从而提高算法的运行速度。通过Apriori算法和ApriorTid_M对相同支持度不等量数据进行运算的时间和等量数据在不同支持度条件下的运行时间的对比分析,验证了该算法在运算时间小于原算法。对某电信公司各种电信业务和客户资料进行收集和分析,了解该电信公司的经营模式和营销策略,针对运营商的需求,使用改进的AprioriTid_M算法对电信业务进行关联规则挖掘,结合实际情况对挖掘出来的结果进行解释说明,并对模型进行优化,最终提出业务的交叉销售方式。最后,设计一种基于电信客户数据管理的数据挖掘系统,实现对用户数据的管理及对电信业务进行关联分析,以及数据挖掘技术可视化操作。