数据挖掘方法应用于电信行业渠道潜在用户识别

来源 :商业2.0 | 被引量 : 0次 | 上传用户:iloveshe1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据挖掘方法应用于电信行业渠道潜在用户识别
  齐芳芳
  (美商天睿信息系统有限公司,北京 100000)
  中图分类号:TP311 文献标识码:A
  摘要:伴随中国电信行业竞争加剧,运营商面临节约资源和提升服务的双重考验。互联网的蓬勃发展,使得电子渠道的优势逐渐凸显,其快捷高效、易于管理、成本较低等特点更符合当前电信行业的发展要求,因此,成为运营商首选的渠道类型。当前运营商电子渠道已经积累了一部分用户,运营商希望加速传统渠道用户向电子渠道的转移,以数据挖掘方法建立电子渠道潜在用户识别模型,更精准的锁定目标用户群体,提高营销效率。本文围绕解决该问题过程中的业务分析、方法选择、技术实现,评估上线等环节进行阐述,重点体现应用数据挖掘方法解决行业实际业务问题的经验积累过程。
  关键词:数据挖掘;电子渠道;用户渠道偏好;决策树;C4.5;模型评估
  一、引言
  1、研究背景
  中国电信业先后经历了改革、打破垄断、引入竞争、规模发展、业务升级等发展阶段,三大运营商围绕政策、价格、资费、业务、用户等问题展开了长期的竞争,目前已逐步形成多家运营商并存、业务同质化,竞争日趋正面激烈的局面。尤其是近年来电信业规模发展放缓,同时随着虚拟运营商、OTT行业的进入、政府进一步向外商以及国内其他企业(包括民营企业)开放电信市场、以及营改增制度的实行等影响,中国电信运营商面临的竞争日益加大。
  随着行业增幅放缓和利润空间收窄,各大运营商均面临向集约型发展转型的问题,据相关报道,目前国资委已向三大运营商发出通知,要求其大幅削减营销费用。集约发展需要从企业内部寻求内生动力,由粗放式管理转向精细化管理,平衡好成本与效益的关系。需要进一步优化资源使用,使资本更好的聚焦在关键业务的开发和运营上,提升市场竞争能力,完成转型升级。
  伴随互联网成为经济发展的驱动力量,电子渠道在各行业迅速发展。其主要优势体现在实时高效、区域广泛、更利于多样化个性化服务、有效降低企业库存、渠道运行和管理、交易等成本等方面。如果可以更好的发掘电子渠道的发展价值,基于其发展价值开发创新性的功能,与实体渠道互为补充、相互结合,形成多层次、立体化的服务营销渠道体系,提升用户体验,可以有效提升竞争力。
  目前运营商用户可以使用的电子渠道包括网上营业厅、短信营业厅、WAP营业厅、热线及自助终端等已经积累了一部分用户,如何更好的提高电子渠道的普及率,更深入培养用户使用电子渠道的习惯,引导用户从传统渠道向电子渠道转移成为运营商急切关注的问题。然而从传统渠道用户中发展和培养电子渠道用户需要较高的营销成本,另一方面盲目营销不仅营销效率低且影响用户感知。因此本项目提出以用户为中心,以各类电子渠道沉淀的业务受理信息,基于数据挖掘方法,分析挖掘不同渠道的偏好度的用户的业务需求和特征,建立模型预测潜在电子渠道用户,更精准的展开潜在用户渗透营销。
  2、应用场景
  通过建立电子渠道潜在用户识别模型,周期性从全网用户中产出各细分电子渠道的潜在用户名单及倾向概率,让一线工作人员依托此名单展开营销发展活动,提高营销成功率。
  二、相关工作理论基础
  1、数据挖掘方法论
  数据挖掘过程主要分为五个阶段:定义业务问题范围、选取和抽样、探索型数据分析、建模和实施。定义业务问题范围阶段主要是详细分析用户业务需求并明确数据挖掘目标;选取和抽样阶段要确立建模用的样本和相关属性集,抽样生成训练和测试数据;探索数据分析阶段的任务是整理和理解数据集,保证指标变量可用性;建模阶段主要是利用不同的建模技术或不同数据集,通过性能评估,选出最好的分析模型;实施阶段主要是将模型的结果自动化并提供业务使用。
  2、分类问题
  分类问题是数据挖掘的一个重要课题。分类的是利用一个分类模型,将目标数据影射到给定类别中的一个,属于有监督的学习的范围。所谓有监督是指训练之前模型需要被告知每个训练样本属于哪个类。分类问题主要分为两大步骤:第一步,建立模型,训练产出分类规则。第二步,使用模型,对未知的对象进行分类。
  3、决策树算法
  决策树分类器,是最常用的分类算法之一。决策树是一种树状结构,由根节点、内部节点、叶节点和边组成。内部节点表示在一个属性上的测试,分枝代表一个测试输出,树叶节点代表类或类分布。决策树的生成由两个阶段组成:决策树构建和剪枝。决策树构建是自上而下的,开始时,所有的训练样本都在根节点,所有样本根据每次选择出的属性递归的逐渐划分开来,选择出来的属性称为一个划分或查询,而划分的选择是基于启发式或者某种统计特征进行的。当满足某种迭代停止条件时,划分操作停止。树的剪枝过程主要针对许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝。决策树的分类过程是从根节点开始,对某属性的取值进行提问,根据不同的回答转向相应的分支,这一过程持续迭代,直到到达某个叶节点,输出该叶节点的类别标记。决策树作为一种分类器的被广泛使用的原因是其可解释性强,训练速度快以及比较容易与业务经验结合等优点。
  C4.5算法是目前最流行的一种决策树算法。是由Ross Quinlan于1993年在ID3算法的基础上进一步改进而成的,它继承了ID3算法的全部优点,并做出了改进:首先,用信息增益率代替信息增益来选择属性,决策树的基本思想是使后继结点的数据尽可能的“纯”,常见的不纯度度量有熵、GINI、方差等,划分的选择主要是选择使不纯度下降最快的那个查询。ID3算法就是选择信息增益最大即熵下降最大的属性进行分支的。但以信息增益进行分类决策时,存在偏向于取值较多的属性特征的问题。C4.5用信息增益率代替信息增益来选择属性,克服了这一问题。其次,C4.5能够对连续属性进行离散化处理,因此可以处理实值数据。另外在处理不完整数据、剪枝等方面也进行了改进。   三、模型设计及实现
  1、问题定义
  对几种电子渠道(包括网上营业厅,短信营业厅,WAP营业厅,热线及自助终端)各自的潜在用户进行识别,对应的是数据挖掘中的分类问题。分类问题要求我们首先对正负样本进行定义,正负样本的定义对于研究分类问题是非常重要的环节。在此问题中,由于很多用户不只使用一种渠道,如果单纯将分析周期内有过接触行为的用户作为正样本反映出的用户特征将不明显,因此我们将几种电子渠道各自的偏好用户作为该渠道的正样本分别进行训练。如何定义每种电子渠道的偏好用户呢,依托每种电子渠道的接触数据,我们对用户偏好某种电子渠道的标准定义如下:针对渠道接触次数大于10次的用户,分析周期内用户通过某种电子渠道办理业务的次数/总次数>40%。
  2、数据输入
  定义好正负样本之后,我们对输入特征变量集合进行了设计。特征主要包括几大类:用户自然属性、消费行为特征、终端特征、渠道接触特征和电信行为特征。用户自然属性特征主要包括用户的性别、年龄、归属地、入网时长等;电信行为特征主要是指用户使用主要业务的行为特征(包括使用量和使用频次等),包括语音通话、流量使用以及短信使用等;消费行为特征主要指用户使用主要业务产生的费用特征,包括ARPU、语音消费、流量消费和短信消费等;渠道接触特征包括用户拨打热线、访问登陆网上/短信/掌上营业厅、使用自助终端等行为特征;终端特征包括用户的终端是否智能终端、终端品牌、操作系统等。
  3、模型建立
  选本月对应的前三个月的时间段作为研究的时间窗口,由于问题对应的正负样本存在较严重的不均衡问题,因此对各种电子渠道(网厅,短厅,掌厅,IVR热线和自助终端)各自的渠道偏好用户和实体渠道用户进行了抽样,样本数据分为训练集和测试集两部分,训练集样本占70%,测试集占30%。采用C4.5算法对混合样本进行训练,得到用户被划分到各种电子渠道的概率。
  4、模型评估
  由于模型产出对应的业务应用属于主动营销问题,因此模型评估最关注的是概率值最高部分用户预测的命中率和提升度。以网厅模型为例,潜在用户倾向概率中前30%用户对应的命中率为43%,提升度为5.77,在模型上线3个月后,营销回流反馈数据呈现,营销准确率提升了27%,其他几个模型的效果均比较理想。
  四、总结
  近年来,随着计算机技术发展和用户精细化管理的要求,电信行业应用数据挖掘解决业务问题已经有了很多积累,如业务关联、用户细分、流失预警等问题。但针对具体问题,建模中还有很多细节决定模型的最终应用效果。本文以一个具体案例讲述数据挖掘方法在解决实际业务问题时的方法选择和细节处理。伴随大数据时代的到来,各行业越来越重视从数据中寻找价值,相信数据挖掘在电信行业中的应用也会继续深入普及。
  参考文献:
  [1]R.Quinlan(1993).C4.5:Programs for Machine Learning.Morgan Kaufmann Publishers,San Mateo,CA.
  [2]马秀红.数据挖掘中决策树的探讨[J].计算机工程与应用
其他文献
中图分类号:G253文献标识码:A  摘要:作为现代新昆明建设之东城战略率先启动的呈贡新区,其建设进程引起了世人的瞩目和期待。虽然现在处于现代新昆明建设的起步阶段,但其进程迅速、高楼疯长、道路宽长。离城区较远的呈贡新城,除了大学城的学生和老师以及当地居民,几乎没有外来人员。这又导致入住者零散、车辆罕至。笔者通过对大学城内大学生做问卷调查和面对面的访问,分析并得出其对呈贡新区建设的适应程度。  关键
期刊
中图分类号:G311文献标识码:A  摘要:全球经济正在朝着一体化的方向发展,虚拟经济在这样的大背景下也迎来了自身的发展契机。本文首先对虚拟经济与实体经济进行了概述,简要分析了中国股市在经济发展中的功能效用、与实体经济的关系,接着通过对多个指标的实证分析,最后提出了推动中国股市发展的对策和与实体经济相适应发展的策略。  关键词:虚拟经济;实体经济;股市;关系研究  自改革开放以来,中国的实体经济一
期刊
中图分类号:F592文献标识码:A  摘要:中国是一个历史悠久的农业文明古国,在漫长的岁月中,各族人民用聪明智慧发明创造了许许多多农耕文化遗产。其中,自身具备较高的观赏价值、历史价值、生态价值、研究价值和文化内涵,并能有幸被人发觉、利用到旅游市场当中来的这部分农业文化遗产,就是广义上的农业旅游景观。农业旅游景观作为一个新兴的旅游产品,具有自身的独特性,其开发应遵循可持续发展的道路。本文以云南元阳哈
期刊
中图分类号:F724.5文献标识码:A  摘要:本文从我国农产品期货品种数量和结构现状出发,分析指出当前制约我国农产品期货品种发展的主要因素有农业生产规模化程度偏低、现货市场体系发育不足、农产品期货上市机制亟待调整等方面。建议通过构建新型农业生产经营主体,完善现货市场体系、优化农产品期货品种结构,审慎发展期权市场、推进期货上市机制的结构性改革等举措,丰富我国农产品期货品种数量,有效发挥农产品期货的
期刊
中图分类号:C933文献标识码:A  摘要:86版的《西游记》是目前为止世界上收视率和重播率最高的一部电视剧,重播达3000多次。该部电视剧讲述的是孙悟空、猪八戒、沙僧保护大唐高僧玄奘去西天求取真经的故事。师徒四人一路跋山涉水,降妖除魔,历经八十一难,终取回真经,修正果。在剧里的四个主角,唐僧、孙悟空、猪八戒和沙僧,最不受大众喜爱的是唐僧。因为唐僧没有武艺,遇到危险时,只能靠三个徒弟搭救;他常常是
期刊
中图分类号:F275文献标识码:A  摘要:跨国公司属于一般公司的特例,它具有一般公司的作用、性质、职能和使命,但其由于广泛的全球性、对一国经济的重要意义及在世界经济舞台的重要地位和作用而不同于一般意义上的公司。跨国公司的发展离不开资金的支持,其全球性的经营战略目标决定了它的融资是国际化的。可以这样说,在世界经济舞台跨国公司取得的巨大成功,与其庞大复杂而又卓有成效的融资体系有着密切的联系。由于国际
期刊
中国影子银行体系现状及对策研究  吴羽茜陆艳珍王俊乂  (云南大学,云南昆明650500)  中图分类号:F832.3文献标识码:A  1.中国影子银行体系概述  1.1中国式影子银行的涵义及其特征  在中国,由于资产证券化及利率市场化的进程还处于逐步开放的过程中,中国的影子银行体系相对于欧美市场的划分还是有较大的区别:从狭义的角度来看,只有游离于监管范围之外的融资活动才能属于影子银行体系;从广义
期刊
我国银行业资本结构影响因素的实证分析  中图分类号:F275文献标识码:A  摘要:随着我国改革开放的进一步深化,以及经济全球化和区域一体化进程越来越明显,我国的企业面临着越来越多的竞争与压力,我国的商业银行也面临着适应市场机制要求的一系列问题。商业银行的融资决策主要是考虑资本结构的问题,文中主要选取了2008-2012年的10家上市商业银行的面板数据,运用SPSS软件进行描述性分析、因子分析、主
期刊
中图分类号:G812文献标识码:A  摘要:我国在最近几年也开始重视休闲体育,高等院校除了开设相关专业,还鼓励全校师生积极参与休闲体育活动。本文探讨了休闲体育的含义、类别、作用及方式,并通过调查研究了我院师生对休闲体育活动的态度、项目、场所、目的、形式以及影响因素等方面。并且分析了我院师生休闲体育活动中存在的问题,并提出了一系列发展策略,加强师生休闲体育管理、改变师生休闲体育观念、增强休闲体育趣味
期刊
中图分类号:F270文献标识码:A  摘要:现今兴起较晚而发展迅速的志愿服务对推动社会发展做出巨大贡献。本研究面向当代志愿活动,探求志愿服务过程中的焦点问题“志愿疲劳”、“志愿动机”和“志愿绩效”。构建出在“利己”和“利他”不同志愿动机起调节作用下的两类志愿疲倦“工作倦怠”和“共情疲劳”分别与志愿服务绩效间的相关关系模型,并对如何应对志愿疲劳、提高志愿绩效提出可操作性建议。  关键词:志愿服务;志
期刊