论文部分内容阅读
摘 要: 针对电力企业用电客户的特定属性进行聚类,利用聚类算法进行数据处理,提取聚类客户标签。通过对用电客户的社会属性数据、电力属性数据以及聚类分析提取标签建立标签库,为电力企业的日常运营、风险管控、售电营销提供支撑,提升客户服务工作水平。
关键词:电力企业;用电客户;聚类;标签库;K-means
引言
随着经济的不断发展,社会生产力的不断进步,电力企业的不断扩大,当前用电客户规模也在不断增加。另一方面,随着电力服务互联网化进程的不断推进,电子服务渠道的不断增加,云计算和大数据技术不断发展和应用,传统的用电客户管理以及营销工作的开展已经不能很好地满足众多不同类型用电客户日益多样化的需求,日常的用户管理、营销工作亟需优化,而基于用电客户属性进行标签化的管理可以很好的契合电力企业的管理及营销需要。
在电力企业服务中,可以根据用电客户的社会属性特征、电力属性特征等数据定义一些关键词,这种类型的关键词通常被称为用户标签。基于用电客户数据建立结构化的自然标签、运营标签等标签库,对用电客户进行深度挖掘与分析,可用于电力企业的日常运营、风险管控、售电营销,可以针对不同的电子服务渠道进行差细化运营,更好的体现“以客户为中心”的服务理念,提升客户服务工作水平。
本文将基于用电企业的服务基础,从用电客户的社会属性数据、电力属性数据等特征类型进行分析,针对用电客户进行聚类分析研究,探索用电客户标签库的技术实现与应用,建立一套适用并且满足于电力企业运营服务的用户标签库。
一、概述
基于用电客户的社会属性、电力属性将用电客户先做初步分类,给用电客户赋予基础标签,再通过聚类算法进行进一步分类提取标签。电力企业可以利用用电客户标签库用于日常运营、风险管控、售电营销。
二、算法简介
K-means 算法是一种简单常用的聚类方法,在处理海量数据库方面较有效、速度快、效率高,具有良好的伸缩性,聚类结果清晰,适合电力客户较多的情况[4]。其原理是对于已知的 N 个点的坐标,xi,i 1,..., N ,将这堆点分为 k 类,每个类有一个聚类中心 j 1,...., k ,即一个点所属的类别。因此,K-means 聚类的主要任务就是求聚类中心cj ,使得所有点到其所属类中心的距离最小,即使得损失函数L 最小:
其中,min 操作保证了每个点只属于离它最近的那一类。
三、标签提取过程
以客户信用等级为例,由于电力客户信用的场景中,并没有人为标注明确信用等级的客户数据,同时考虑到客户信用等级并不是一层不变的,因此无监督算法中的 K-means 算法聚类很适合此场景。
(一)相关特征数据预处理
在将数据输入算法模型之前,需要对客户信用体系中的欠费记录(当前和历史,包括金额大小,次数,欠费天数),预存电费记录(当前和历史,包括金额大小,次数)等转化为数值型特征,因此一个客户的信用特征就可以用一个 n 维向量表达。为了避免数值的量级大小影响聚类迭代的效果,再对每个特征按如下公式进行归一化至 0-1 的区间。
(二)对客户数据进行聚类分析
(1)确定电力客户分类的信用等级个数 k。
( 2 ) 选 择 初 始 类 中 心 。 首 先 从 电 力 客 户 样 本 对X1, X 2, X3,......, Xn中随机选择 k 个样本点C1,C2,C3,...,CK 作为初始的 k 个聚类集合G1,G2,G3,....,Gk 的类中心。
(3)计算距离。在每一轮迭代中,对每个客户样本Xj( j 1, 2,..., n),分别计算它到 k 个类中心点C1,C2,C3,...,CK的距离| Xj Gi || (i 1, 2, ..., k ) 。
(4)进行样本分类。以C1,C2,C3,...,CK为中心点进行集合划分,将各个电力客户样本划分到和自身距离最近的类中,分别组成 k 簇新类.
(5) 当达到一定迭代次数或G1,G2,G3,....,Gk 不再改变时,则聚类完成
(三)聚类结果分析
聚类迭代完成后,每个点都会得到中心,即所属的信用等级,同时函数 L 的值便可以作为聚类结果的好坏,因为其代表的是每个点到其所属中心的距离,距离越小则代表的聚类结果越好。如图为电力客户信用数据聚类效果图,通过将聚类后的,客户的多维特征投影到二维空间上,可以看到电力客户样本数据点明显的分为了 3 个簇,再通过对客户信用数据的人工把握,对每个类赋予一个标签,就可以完成对电力客户的信用分类,如下图就可以分为高信用度,中信用度和低信用度三个标签。
四、结束语
本文提出的用电客户属性标签库技术的实现与应用,将客户进行聚类分析,构建一套系统完整的标签库,电力企业能根据实际服务需要,有效地应用于电力企业的日常运营、風险管控、售电营销,可以更好的体现“以客户为中心”的服务理念,提升客户服务工作。
参考文献:
[1]黄红霞,章成志. 中文微博用户标签的调查分析——以新浪微博为例[J].2012.
[2]林森,欧阳柳.基于大数据理论的电力客户标签体系构建[J].电气技术,2016,17(12):98-101.
[3]赵晓波.供电企业大客户管理的研究[D].南京理工大学,2005.
[4]未瑞,罗国亮.基于聚类分析和层次分析法的电力客户信用评价研究[J].现代电力,2007(06):80-84.
作者简介:
陈 琳(1982--),男,学位:学士,职称:工程师,研究方向:电力营销;
任 婷(1988--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
税 洁(1987--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
林 磊(1988--),男,职称:助理工程师;研究方向:电力营销;
徐艳如(1988--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
许健彰(1992--),男,学位:学士,研究方向:管理信息系统;
莫文武(1990--),男,学位:学士,研究方向:电子与信息技术。
关键词:电力企业;用电客户;聚类;标签库;K-means
引言
随着经济的不断发展,社会生产力的不断进步,电力企业的不断扩大,当前用电客户规模也在不断增加。另一方面,随着电力服务互联网化进程的不断推进,电子服务渠道的不断增加,云计算和大数据技术不断发展和应用,传统的用电客户管理以及营销工作的开展已经不能很好地满足众多不同类型用电客户日益多样化的需求,日常的用户管理、营销工作亟需优化,而基于用电客户属性进行标签化的管理可以很好的契合电力企业的管理及营销需要。
在电力企业服务中,可以根据用电客户的社会属性特征、电力属性特征等数据定义一些关键词,这种类型的关键词通常被称为用户标签。基于用电客户数据建立结构化的自然标签、运营标签等标签库,对用电客户进行深度挖掘与分析,可用于电力企业的日常运营、风险管控、售电营销,可以针对不同的电子服务渠道进行差细化运营,更好的体现“以客户为中心”的服务理念,提升客户服务工作水平。
本文将基于用电企业的服务基础,从用电客户的社会属性数据、电力属性数据等特征类型进行分析,针对用电客户进行聚类分析研究,探索用电客户标签库的技术实现与应用,建立一套适用并且满足于电力企业运营服务的用户标签库。
一、概述
基于用电客户的社会属性、电力属性将用电客户先做初步分类,给用电客户赋予基础标签,再通过聚类算法进行进一步分类提取标签。电力企业可以利用用电客户标签库用于日常运营、风险管控、售电营销。
二、算法简介
K-means 算法是一种简单常用的聚类方法,在处理海量数据库方面较有效、速度快、效率高,具有良好的伸缩性,聚类结果清晰,适合电力客户较多的情况[4]。其原理是对于已知的 N 个点的坐标,xi,i 1,..., N ,将这堆点分为 k 类,每个类有一个聚类中心 j 1,...., k ,即一个点所属的类别。因此,K-means 聚类的主要任务就是求聚类中心cj ,使得所有点到其所属类中心的距离最小,即使得损失函数L 最小:
其中,min 操作保证了每个点只属于离它最近的那一类。
三、标签提取过程
以客户信用等级为例,由于电力客户信用的场景中,并没有人为标注明确信用等级的客户数据,同时考虑到客户信用等级并不是一层不变的,因此无监督算法中的 K-means 算法聚类很适合此场景。
(一)相关特征数据预处理
在将数据输入算法模型之前,需要对客户信用体系中的欠费记录(当前和历史,包括金额大小,次数,欠费天数),预存电费记录(当前和历史,包括金额大小,次数)等转化为数值型特征,因此一个客户的信用特征就可以用一个 n 维向量表达。为了避免数值的量级大小影响聚类迭代的效果,再对每个特征按如下公式进行归一化至 0-1 的区间。
(二)对客户数据进行聚类分析
(1)确定电力客户分类的信用等级个数 k。
( 2 ) 选 择 初 始 类 中 心 。 首 先 从 电 力 客 户 样 本 对X1, X 2, X3,......, Xn中随机选择 k 个样本点C1,C2,C3,...,CK 作为初始的 k 个聚类集合G1,G2,G3,....,Gk 的类中心。
(3)计算距离。在每一轮迭代中,对每个客户样本Xj( j 1, 2,..., n),分别计算它到 k 个类中心点C1,C2,C3,...,CK的距离| Xj Gi || (i 1, 2, ..., k ) 。
(4)进行样本分类。以C1,C2,C3,...,CK为中心点进行集合划分,将各个电力客户样本划分到和自身距离最近的类中,分别组成 k 簇新类.
(5) 当达到一定迭代次数或G1,G2,G3,....,Gk 不再改变时,则聚类完成
(三)聚类结果分析
聚类迭代完成后,每个点都会得到中心,即所属的信用等级,同时函数 L 的值便可以作为聚类结果的好坏,因为其代表的是每个点到其所属中心的距离,距离越小则代表的聚类结果越好。如图为电力客户信用数据聚类效果图,通过将聚类后的,客户的多维特征投影到二维空间上,可以看到电力客户样本数据点明显的分为了 3 个簇,再通过对客户信用数据的人工把握,对每个类赋予一个标签,就可以完成对电力客户的信用分类,如下图就可以分为高信用度,中信用度和低信用度三个标签。
四、结束语
本文提出的用电客户属性标签库技术的实现与应用,将客户进行聚类分析,构建一套系统完整的标签库,电力企业能根据实际服务需要,有效地应用于电力企业的日常运营、風险管控、售电营销,可以更好的体现“以客户为中心”的服务理念,提升客户服务工作。
参考文献:
[1]黄红霞,章成志. 中文微博用户标签的调查分析——以新浪微博为例[J].2012.
[2]林森,欧阳柳.基于大数据理论的电力客户标签体系构建[J].电气技术,2016,17(12):98-101.
[3]赵晓波.供电企业大客户管理的研究[D].南京理工大学,2005.
[4]未瑞,罗国亮.基于聚类分析和层次分析法的电力客户信用评价研究[J].现代电力,2007(06):80-84.
作者简介:
陈 琳(1982--),男,学位:学士,职称:工程师,研究方向:电力营销;
任 婷(1988--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
税 洁(1987--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
林 磊(1988--),男,职称:助理工程师;研究方向:电力营销;
徐艳如(1988--),女,学位:学士,职称:助理工程师,研究方向:电力营销;
许健彰(1992--),男,学位:学士,研究方向:管理信息系统;
莫文武(1990--),男,学位:学士,研究方向:电子与信息技术。