论文部分内容阅读
摘要:数据挖掘技术的迅猛发展使其在各领域的应用越来越普遍。本文将数据挖掘的技术运用于通信行业客户2/3G升级4G+网络的研究中,分析用户升级网络的可行性,为企业决策者提供相应的决策参考。
关键词:数据挖掘;升网;K均值算法;流量
1.引言
近年来,移动通信行业高速发展,电信市场逐渐向民营市场开放、4G+加速部署、三网融合、流量对语音业务的加速替换都将对行业发展产生重大影响。而4G+网络以极速上网、随时随地、超强兼容、全网覆盖、随时畅享等优点影响着用户的生活习惯,同时4G+网络的覆盖极大促进了我国通信市场的发展,提高现代科技的利用效率。
2.数据挖掘相关理论
数据挖掘是把人们未知又有用的知识从不完整,有噪声的,模糊的数据中提取出来。严格来说,数据挖掘是在一个特定步骤的过程中,必须经过一些初步的步骤和后续工作才能够把信息提取出来[1]。
3.K均值算法原理
数据挖掘在互联网的应用模式和产品中的迅速发展趋势,表现为对互联网流量需求的增长,也逐渐替代了通信运营商传统的语言和短信等收费业务[2]。运营商为了保有客户和收入,需要在4G+时代做好互联网流量经营,提升客户满意度,以丰富的互联网业务促进客户流量消费,稳定市场份额和提升价值[3]。目前,数据挖掘已经诞生了K均值、BP神经网络、遗传算法和贝叶斯理论等算法,可以从海量的数据中发掘潜在的有价值的信息,利用这些信息可以引导2G用户逐渐升级4G+网络。数据挖掘在升网行动应用模式具体算法为“基于K均值算法”。
K均值算法是一种聚类算法。之所以被称为K均值是因为它可以找到k个不同的簇,且每个簇的中心取值都是簇中所含值的均值。簇的中心被称为该簇的质心。
K均值聚类算法中簇的个数k由用户给定,每个簇通过其质心来描述。它的工作原理:首先,随机确定k个初始点作为质心;接着,将数据集中的每个点分配到一个簇中,即为每個点找到距离其最近的质心,并将其分配给该质心所对应的簇;然后,每个簇的质心更新为该簇所有点的平均值。再次重新分配数据集中所有的点,如果所有的点被分配的簇和之前一样,即簇的质心不会再改变,则此时的k个簇就是我们所需要的;如果某个点被分配的簇改变了,则分配完所有的点之后重新更新每个簇的质心,重复分配、更新操作直到所有簇的质心不再改变。
4.基于K均值算法构建客户群
目前,利用用户使用的手机终端型号、每月消费的ARPU值和 K 均值算法可以构建一个分类的用户群,这样就可以将用户使用的终端型号以为消费能力分为高中低等档次,针对高档用户群可以引导用户升级4G+网络,保证用户价值持续提升;针对中档次用户制定一些力度较大的流量优惠措施,培养用户高流量习惯从而升网,这样就可以把中档次用户提高为高档次用户。
在本次研究中共抽取了25786个2G用户5月、6月、7月的使用情况作为原始样本,通过K 均值算法对用户的各个维度进行了分析,包括用户终端网络模式、用户终端使用时长、ARPU值、年龄、性别、 流量使用情况,语音使用情况、网龄等,结果如表1所示:
通过以上表可以分析出:
1、2G网络的用户群体中,使用4G终端的用户的占比为74%,其中年龄小于55岁的占比为68%,年轻客户群居多。
2、4G终端用户的ARPU均值为47.06元,而且用户网龄大于1年的占47%,用户流量使用量在1G以上的占38%。
3、在上表中2、3G终端共占比26%,其中1-3年的用户占比为10%,根据我国终端的平均使用时长为2年。2、3G终端换为4G终端使用户升级4G+网络的可能性增大。
通过以上分析,可以得出结论,对于使用4G终端的2G网络用户,年轻人居多,而且ARPU值接近50元,网龄大于1年的将近占50%,这些用户也有使用流量的习惯。这些有利的条件对于引导2、3G用户升级4G+网络的可行性很大,企业可以通过一些政策的导向,引导用户逐步升网,从而达到企业和用户双赢。
5.结束语
本文以某通信公司为对象,描述了数据挖掘的过程,采用K 均值算法进行客户升级4G+网络的可行性分析,对公司运营来说,需要结合市场营销学和消费者心理学引导用户升网。对通信公司客户网络情况的细分,可以使企业更加了解2G网络客户的情况,便于采取适当营销策略和手段获得收益。本文的研究从数据上着手,开发出精确的模型,给企业的决策者提供业务决策。
参考文献:
[1]章金熔,刘峰,赵志宏,骆斌.数据挖掘方法在网络入侵检测中的应用[J].计算机工程与设计,2009,30(24):5561~5566.
[2]张立峰.C公司移动互联网精细化流量经营营销策略的研究[D].华东理工大学,2015:11-17.
[3]张纪元.基于大数据挖掘的精细化流量经营运营平台建设探索[J].互联网天地,2013,24(7):211-213.
关键词:数据挖掘;升网;K均值算法;流量
1.引言
近年来,移动通信行业高速发展,电信市场逐渐向民营市场开放、4G+加速部署、三网融合、流量对语音业务的加速替换都将对行业发展产生重大影响。而4G+网络以极速上网、随时随地、超强兼容、全网覆盖、随时畅享等优点影响着用户的生活习惯,同时4G+网络的覆盖极大促进了我国通信市场的发展,提高现代科技的利用效率。
2.数据挖掘相关理论
数据挖掘是把人们未知又有用的知识从不完整,有噪声的,模糊的数据中提取出来。严格来说,数据挖掘是在一个特定步骤的过程中,必须经过一些初步的步骤和后续工作才能够把信息提取出来[1]。
3.K均值算法原理
数据挖掘在互联网的应用模式和产品中的迅速发展趋势,表现为对互联网流量需求的增长,也逐渐替代了通信运营商传统的语言和短信等收费业务[2]。运营商为了保有客户和收入,需要在4G+时代做好互联网流量经营,提升客户满意度,以丰富的互联网业务促进客户流量消费,稳定市场份额和提升价值[3]。目前,数据挖掘已经诞生了K均值、BP神经网络、遗传算法和贝叶斯理论等算法,可以从海量的数据中发掘潜在的有价值的信息,利用这些信息可以引导2G用户逐渐升级4G+网络。数据挖掘在升网行动应用模式具体算法为“基于K均值算法”。
K均值算法是一种聚类算法。之所以被称为K均值是因为它可以找到k个不同的簇,且每个簇的中心取值都是簇中所含值的均值。簇的中心被称为该簇的质心。
K均值聚类算法中簇的个数k由用户给定,每个簇通过其质心来描述。它的工作原理:首先,随机确定k个初始点作为质心;接着,将数据集中的每个点分配到一个簇中,即为每個点找到距离其最近的质心,并将其分配给该质心所对应的簇;然后,每个簇的质心更新为该簇所有点的平均值。再次重新分配数据集中所有的点,如果所有的点被分配的簇和之前一样,即簇的质心不会再改变,则此时的k个簇就是我们所需要的;如果某个点被分配的簇改变了,则分配完所有的点之后重新更新每个簇的质心,重复分配、更新操作直到所有簇的质心不再改变。
4.基于K均值算法构建客户群
目前,利用用户使用的手机终端型号、每月消费的ARPU值和 K 均值算法可以构建一个分类的用户群,这样就可以将用户使用的终端型号以为消费能力分为高中低等档次,针对高档用户群可以引导用户升级4G+网络,保证用户价值持续提升;针对中档次用户制定一些力度较大的流量优惠措施,培养用户高流量习惯从而升网,这样就可以把中档次用户提高为高档次用户。
在本次研究中共抽取了25786个2G用户5月、6月、7月的使用情况作为原始样本,通过K 均值算法对用户的各个维度进行了分析,包括用户终端网络模式、用户终端使用时长、ARPU值、年龄、性别、 流量使用情况,语音使用情况、网龄等,结果如表1所示:
通过以上表可以分析出:
1、2G网络的用户群体中,使用4G终端的用户的占比为74%,其中年龄小于55岁的占比为68%,年轻客户群居多。
2、4G终端用户的ARPU均值为47.06元,而且用户网龄大于1年的占47%,用户流量使用量在1G以上的占38%。
3、在上表中2、3G终端共占比26%,其中1-3年的用户占比为10%,根据我国终端的平均使用时长为2年。2、3G终端换为4G终端使用户升级4G+网络的可能性增大。
通过以上分析,可以得出结论,对于使用4G终端的2G网络用户,年轻人居多,而且ARPU值接近50元,网龄大于1年的将近占50%,这些用户也有使用流量的习惯。这些有利的条件对于引导2、3G用户升级4G+网络的可行性很大,企业可以通过一些政策的导向,引导用户逐步升网,从而达到企业和用户双赢。
5.结束语
本文以某通信公司为对象,描述了数据挖掘的过程,采用K 均值算法进行客户升级4G+网络的可行性分析,对公司运营来说,需要结合市场营销学和消费者心理学引导用户升网。对通信公司客户网络情况的细分,可以使企业更加了解2G网络客户的情况,便于采取适当营销策略和手段获得收益。本文的研究从数据上着手,开发出精确的模型,给企业的决策者提供业务决策。
参考文献:
[1]章金熔,刘峰,赵志宏,骆斌.数据挖掘方法在网络入侵检测中的应用[J].计算机工程与设计,2009,30(24):5561~5566.
[2]张立峰.C公司移动互联网精细化流量经营营销策略的研究[D].华东理工大学,2015:11-17.
[3]张纪元.基于大数据挖掘的精细化流量经营运营平台建设探索[J].互联网天地,2013,24(7):211-213.