论文部分内容阅读
数据挖掘方法应用于电信行业渠道潜在用户识别
齐芳芳
(美商天睿信息系统有限公司,北京 100000)
中图分类号:TP311 文献标识码:A
摘要:伴随中国电信行业竞争加剧,运营商面临节约资源和提升服务的双重考验。互联网的蓬勃发展,使得电子渠道的优势逐渐凸显,其快捷高效、易于管理、成本较低等特点更符合当前电信行业的发展要求,因此,成为运营商首选的渠道类型。当前运营商电子渠道已经积累了一部分用户,运营商希望加速传统渠道用户向电子渠道的转移,以数据挖掘方法建立电子渠道潜在用户识别模型,更精准的锁定目标用户群体,提高营销效率。本文围绕解决该问题过程中的业务分析、方法选择、技术实现,评估上线等环节进行阐述,重点体现应用数据挖掘方法解决行业实际业务问题的经验积累过程。
关键词:数据挖掘;电子渠道;用户渠道偏好;决策树;C4.5;模型评估
一、引言
1、研究背景
中国电信业先后经历了改革、打破垄断、引入竞争、规模发展、业务升级等发展阶段,三大运营商围绕政策、价格、资费、业务、用户等问题展开了长期的竞争,目前已逐步形成多家运营商并存、业务同质化,竞争日趋正面激烈的局面。尤其是近年来电信业规模发展放缓,同时随着虚拟运营商、OTT行业的进入、政府进一步向外商以及国内其他企业(包括民营企业)开放电信市场、以及营改增制度的实行等影响,中国电信运营商面临的竞争日益加大。
随着行业增幅放缓和利润空间收窄,各大运营商均面临向集约型发展转型的问题,据相关报道,目前国资委已向三大运营商发出通知,要求其大幅削减营销费用。集约发展需要从企业内部寻求内生动力,由粗放式管理转向精细化管理,平衡好成本与效益的关系。需要进一步优化资源使用,使资本更好的聚焦在关键业务的开发和运营上,提升市场竞争能力,完成转型升级。
伴随互联网成为经济发展的驱动力量,电子渠道在各行业迅速发展。其主要优势体现在实时高效、区域广泛、更利于多样化个性化服务、有效降低企业库存、渠道运行和管理、交易等成本等方面。如果可以更好的发掘电子渠道的发展价值,基于其发展价值开发创新性的功能,与实体渠道互为补充、相互结合,形成多层次、立体化的服务营销渠道体系,提升用户体验,可以有效提升竞争力。
目前运营商用户可以使用的电子渠道包括网上营业厅、短信营业厅、WAP营业厅、热线及自助终端等已经积累了一部分用户,如何更好的提高电子渠道的普及率,更深入培养用户使用电子渠道的习惯,引导用户从传统渠道向电子渠道转移成为运营商急切关注的问题。然而从传统渠道用户中发展和培养电子渠道用户需要较高的营销成本,另一方面盲目营销不仅营销效率低且影响用户感知。因此本项目提出以用户为中心,以各类电子渠道沉淀的业务受理信息,基于数据挖掘方法,分析挖掘不同渠道的偏好度的用户的业务需求和特征,建立模型预测潜在电子渠道用户,更精准的展开潜在用户渗透营销。
2、应用场景
通过建立电子渠道潜在用户识别模型,周期性从全网用户中产出各细分电子渠道的潜在用户名单及倾向概率,让一线工作人员依托此名单展开营销发展活动,提高营销成功率。
二、相关工作理论基础
1、数据挖掘方法论
数据挖掘过程主要分为五个阶段:定义业务问题范围、选取和抽样、探索型数据分析、建模和实施。定义业务问题范围阶段主要是详细分析用户业务需求并明确数据挖掘目标;选取和抽样阶段要确立建模用的样本和相关属性集,抽样生成训练和测试数据;探索数据分析阶段的任务是整理和理解数据集,保证指标变量可用性;建模阶段主要是利用不同的建模技术或不同数据集,通过性能评估,选出最好的分析模型;实施阶段主要是将模型的结果自动化并提供业务使用。
2、分类问题
分类问题是数据挖掘的一个重要课题。分类的是利用一个分类模型,将目标数据影射到给定类别中的一个,属于有监督的学习的范围。所谓有监督是指训练之前模型需要被告知每个训练样本属于哪个类。分类问题主要分为两大步骤:第一步,建立模型,训练产出分类规则。第二步,使用模型,对未知的对象进行分类。
3、决策树算法
决策树分类器,是最常用的分类算法之一。决策树是一种树状结构,由根节点、内部节点、叶节点和边组成。内部节点表示在一个属性上的测试,分枝代表一个测试输出,树叶节点代表类或类分布。决策树的生成由两个阶段组成:决策树构建和剪枝。决策树构建是自上而下的,开始时,所有的训练样本都在根节点,所有样本根据每次选择出的属性递归的逐渐划分开来,选择出来的属性称为一个划分或查询,而划分的选择是基于启发式或者某种统计特征进行的。当满足某种迭代停止条件时,划分操作停止。树的剪枝过程主要针对许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝。决策树的分类过程是从根节点开始,对某属性的取值进行提问,根据不同的回答转向相应的分支,这一过程持续迭代,直到到达某个叶节点,输出该叶节点的类别标记。决策树作为一种分类器的被广泛使用的原因是其可解释性强,训练速度快以及比较容易与业务经验结合等优点。
C4.5算法是目前最流行的一种决策树算法。是由Ross Quinlan于1993年在ID3算法的基础上进一步改进而成的,它继承了ID3算法的全部优点,并做出了改进:首先,用信息增益率代替信息增益来选择属性,决策树的基本思想是使后继结点的数据尽可能的“纯”,常见的不纯度度量有熵、GINI、方差等,划分的选择主要是选择使不纯度下降最快的那个查询。ID3算法就是选择信息增益最大即熵下降最大的属性进行分支的。但以信息增益进行分类决策时,存在偏向于取值较多的属性特征的问题。C4.5用信息增益率代替信息增益来选择属性,克服了这一问题。其次,C4.5能够对连续属性进行离散化处理,因此可以处理实值数据。另外在处理不完整数据、剪枝等方面也进行了改进。 三、模型设计及实现
1、问题定义
对几种电子渠道(包括网上营业厅,短信营业厅,WAP营业厅,热线及自助终端)各自的潜在用户进行识别,对应的是数据挖掘中的分类问题。分类问题要求我们首先对正负样本进行定义,正负样本的定义对于研究分类问题是非常重要的环节。在此问题中,由于很多用户不只使用一种渠道,如果单纯将分析周期内有过接触行为的用户作为正样本反映出的用户特征将不明显,因此我们将几种电子渠道各自的偏好用户作为该渠道的正样本分别进行训练。如何定义每种电子渠道的偏好用户呢,依托每种电子渠道的接触数据,我们对用户偏好某种电子渠道的标准定义如下:针对渠道接触次数大于10次的用户,分析周期内用户通过某种电子渠道办理业务的次数/总次数>40%。
2、数据输入
定义好正负样本之后,我们对输入特征变量集合进行了设计。特征主要包括几大类:用户自然属性、消费行为特征、终端特征、渠道接触特征和电信行为特征。用户自然属性特征主要包括用户的性别、年龄、归属地、入网时长等;电信行为特征主要是指用户使用主要业务的行为特征(包括使用量和使用频次等),包括语音通话、流量使用以及短信使用等;消费行为特征主要指用户使用主要业务产生的费用特征,包括ARPU、语音消费、流量消费和短信消费等;渠道接触特征包括用户拨打热线、访问登陆网上/短信/掌上营业厅、使用自助终端等行为特征;终端特征包括用户的终端是否智能终端、终端品牌、操作系统等。
3、模型建立
选本月对应的前三个月的时间段作为研究的时间窗口,由于问题对应的正负样本存在较严重的不均衡问题,因此对各种电子渠道(网厅,短厅,掌厅,IVR热线和自助终端)各自的渠道偏好用户和实体渠道用户进行了抽样,样本数据分为训练集和测试集两部分,训练集样本占70%,测试集占30%。采用C4.5算法对混合样本进行训练,得到用户被划分到各种电子渠道的概率。
4、模型评估
由于模型产出对应的业务应用属于主动营销问题,因此模型评估最关注的是概率值最高部分用户预测的命中率和提升度。以网厅模型为例,潜在用户倾向概率中前30%用户对应的命中率为43%,提升度为5.77,在模型上线3个月后,营销回流反馈数据呈现,营销准确率提升了27%,其他几个模型的效果均比较理想。
四、总结
近年来,随着计算机技术发展和用户精细化管理的要求,电信行业应用数据挖掘解决业务问题已经有了很多积累,如业务关联、用户细分、流失预警等问题。但针对具体问题,建模中还有很多细节决定模型的最终应用效果。本文以一个具体案例讲述数据挖掘方法在解决实际业务问题时的方法选择和细节处理。伴随大数据时代的到来,各行业越来越重视从数据中寻找价值,相信数据挖掘在电信行业中的应用也会继续深入普及。
参考文献:
[1]R.Quinlan(1993).C4.5:Programs for Machine Learning.Morgan Kaufmann Publishers,San Mateo,CA.
[2]马秀红.数据挖掘中决策树的探讨[J].计算机工程与应用
齐芳芳
(美商天睿信息系统有限公司,北京 100000)
中图分类号:TP311 文献标识码:A
摘要:伴随中国电信行业竞争加剧,运营商面临节约资源和提升服务的双重考验。互联网的蓬勃发展,使得电子渠道的优势逐渐凸显,其快捷高效、易于管理、成本较低等特点更符合当前电信行业的发展要求,因此,成为运营商首选的渠道类型。当前运营商电子渠道已经积累了一部分用户,运营商希望加速传统渠道用户向电子渠道的转移,以数据挖掘方法建立电子渠道潜在用户识别模型,更精准的锁定目标用户群体,提高营销效率。本文围绕解决该问题过程中的业务分析、方法选择、技术实现,评估上线等环节进行阐述,重点体现应用数据挖掘方法解决行业实际业务问题的经验积累过程。
关键词:数据挖掘;电子渠道;用户渠道偏好;决策树;C4.5;模型评估
一、引言
1、研究背景
中国电信业先后经历了改革、打破垄断、引入竞争、规模发展、业务升级等发展阶段,三大运营商围绕政策、价格、资费、业务、用户等问题展开了长期的竞争,目前已逐步形成多家运营商并存、业务同质化,竞争日趋正面激烈的局面。尤其是近年来电信业规模发展放缓,同时随着虚拟运营商、OTT行业的进入、政府进一步向外商以及国内其他企业(包括民营企业)开放电信市场、以及营改增制度的实行等影响,中国电信运营商面临的竞争日益加大。
随着行业增幅放缓和利润空间收窄,各大运营商均面临向集约型发展转型的问题,据相关报道,目前国资委已向三大运营商发出通知,要求其大幅削减营销费用。集约发展需要从企业内部寻求内生动力,由粗放式管理转向精细化管理,平衡好成本与效益的关系。需要进一步优化资源使用,使资本更好的聚焦在关键业务的开发和运营上,提升市场竞争能力,完成转型升级。
伴随互联网成为经济发展的驱动力量,电子渠道在各行业迅速发展。其主要优势体现在实时高效、区域广泛、更利于多样化个性化服务、有效降低企业库存、渠道运行和管理、交易等成本等方面。如果可以更好的发掘电子渠道的发展价值,基于其发展价值开发创新性的功能,与实体渠道互为补充、相互结合,形成多层次、立体化的服务营销渠道体系,提升用户体验,可以有效提升竞争力。
目前运营商用户可以使用的电子渠道包括网上营业厅、短信营业厅、WAP营业厅、热线及自助终端等已经积累了一部分用户,如何更好的提高电子渠道的普及率,更深入培养用户使用电子渠道的习惯,引导用户从传统渠道向电子渠道转移成为运营商急切关注的问题。然而从传统渠道用户中发展和培养电子渠道用户需要较高的营销成本,另一方面盲目营销不仅营销效率低且影响用户感知。因此本项目提出以用户为中心,以各类电子渠道沉淀的业务受理信息,基于数据挖掘方法,分析挖掘不同渠道的偏好度的用户的业务需求和特征,建立模型预测潜在电子渠道用户,更精准的展开潜在用户渗透营销。
2、应用场景
通过建立电子渠道潜在用户识别模型,周期性从全网用户中产出各细分电子渠道的潜在用户名单及倾向概率,让一线工作人员依托此名单展开营销发展活动,提高营销成功率。
二、相关工作理论基础
1、数据挖掘方法论
数据挖掘过程主要分为五个阶段:定义业务问题范围、选取和抽样、探索型数据分析、建模和实施。定义业务问题范围阶段主要是详细分析用户业务需求并明确数据挖掘目标;选取和抽样阶段要确立建模用的样本和相关属性集,抽样生成训练和测试数据;探索数据分析阶段的任务是整理和理解数据集,保证指标变量可用性;建模阶段主要是利用不同的建模技术或不同数据集,通过性能评估,选出最好的分析模型;实施阶段主要是将模型的结果自动化并提供业务使用。
2、分类问题
分类问题是数据挖掘的一个重要课题。分类的是利用一个分类模型,将目标数据影射到给定类别中的一个,属于有监督的学习的范围。所谓有监督是指训练之前模型需要被告知每个训练样本属于哪个类。分类问题主要分为两大步骤:第一步,建立模型,训练产出分类规则。第二步,使用模型,对未知的对象进行分类。
3、决策树算法
决策树分类器,是最常用的分类算法之一。决策树是一种树状结构,由根节点、内部节点、叶节点和边组成。内部节点表示在一个属性上的测试,分枝代表一个测试输出,树叶节点代表类或类分布。决策树的生成由两个阶段组成:决策树构建和剪枝。决策树构建是自上而下的,开始时,所有的训练样本都在根节点,所有样本根据每次选择出的属性递归的逐渐划分开来,选择出来的属性称为一个划分或查询,而划分的选择是基于启发式或者某种统计特征进行的。当满足某种迭代停止条件时,划分操作停止。树的剪枝过程主要针对许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝。决策树的分类过程是从根节点开始,对某属性的取值进行提问,根据不同的回答转向相应的分支,这一过程持续迭代,直到到达某个叶节点,输出该叶节点的类别标记。决策树作为一种分类器的被广泛使用的原因是其可解释性强,训练速度快以及比较容易与业务经验结合等优点。
C4.5算法是目前最流行的一种决策树算法。是由Ross Quinlan于1993年在ID3算法的基础上进一步改进而成的,它继承了ID3算法的全部优点,并做出了改进:首先,用信息增益率代替信息增益来选择属性,决策树的基本思想是使后继结点的数据尽可能的“纯”,常见的不纯度度量有熵、GINI、方差等,划分的选择主要是选择使不纯度下降最快的那个查询。ID3算法就是选择信息增益最大即熵下降最大的属性进行分支的。但以信息增益进行分类决策时,存在偏向于取值较多的属性特征的问题。C4.5用信息增益率代替信息增益来选择属性,克服了这一问题。其次,C4.5能够对连续属性进行离散化处理,因此可以处理实值数据。另外在处理不完整数据、剪枝等方面也进行了改进。 三、模型设计及实现
1、问题定义
对几种电子渠道(包括网上营业厅,短信营业厅,WAP营业厅,热线及自助终端)各自的潜在用户进行识别,对应的是数据挖掘中的分类问题。分类问题要求我们首先对正负样本进行定义,正负样本的定义对于研究分类问题是非常重要的环节。在此问题中,由于很多用户不只使用一种渠道,如果单纯将分析周期内有过接触行为的用户作为正样本反映出的用户特征将不明显,因此我们将几种电子渠道各自的偏好用户作为该渠道的正样本分别进行训练。如何定义每种电子渠道的偏好用户呢,依托每种电子渠道的接触数据,我们对用户偏好某种电子渠道的标准定义如下:针对渠道接触次数大于10次的用户,分析周期内用户通过某种电子渠道办理业务的次数/总次数>40%。
2、数据输入
定义好正负样本之后,我们对输入特征变量集合进行了设计。特征主要包括几大类:用户自然属性、消费行为特征、终端特征、渠道接触特征和电信行为特征。用户自然属性特征主要包括用户的性别、年龄、归属地、入网时长等;电信行为特征主要是指用户使用主要业务的行为特征(包括使用量和使用频次等),包括语音通话、流量使用以及短信使用等;消费行为特征主要指用户使用主要业务产生的费用特征,包括ARPU、语音消费、流量消费和短信消费等;渠道接触特征包括用户拨打热线、访问登陆网上/短信/掌上营业厅、使用自助终端等行为特征;终端特征包括用户的终端是否智能终端、终端品牌、操作系统等。
3、模型建立
选本月对应的前三个月的时间段作为研究的时间窗口,由于问题对应的正负样本存在较严重的不均衡问题,因此对各种电子渠道(网厅,短厅,掌厅,IVR热线和自助终端)各自的渠道偏好用户和实体渠道用户进行了抽样,样本数据分为训练集和测试集两部分,训练集样本占70%,测试集占30%。采用C4.5算法对混合样本进行训练,得到用户被划分到各种电子渠道的概率。
4、模型评估
由于模型产出对应的业务应用属于主动营销问题,因此模型评估最关注的是概率值最高部分用户预测的命中率和提升度。以网厅模型为例,潜在用户倾向概率中前30%用户对应的命中率为43%,提升度为5.77,在模型上线3个月后,营销回流反馈数据呈现,营销准确率提升了27%,其他几个模型的效果均比较理想。
四、总结
近年来,随着计算机技术发展和用户精细化管理的要求,电信行业应用数据挖掘解决业务问题已经有了很多积累,如业务关联、用户细分、流失预警等问题。但针对具体问题,建模中还有很多细节决定模型的最终应用效果。本文以一个具体案例讲述数据挖掘方法在解决实际业务问题时的方法选择和细节处理。伴随大数据时代的到来,各行业越来越重视从数据中寻找价值,相信数据挖掘在电信行业中的应用也会继续深入普及。
参考文献:
[1]R.Quinlan(1993).C4.5:Programs for Machine Learning.Morgan Kaufmann Publishers,San Mateo,CA.
[2]马秀红.数据挖掘中决策树的探讨[J].计算机工程与应用