基于大数据的电子商务用户画像构建研究

来源 :电子商务 | 被引量 : 0次 | 上传用户:junyuan__zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着云计算、物联网等新一代技术的迅猛发展,以及来自政府的政策支持,大数据时代已经到来,网络交易所产生的数据量正呈指数级上涨,这为企业构建用户画像提供了丰富数据来源。本文立足于电子商务领域,从标签体系建设和画像体系建设两方面来探讨如何构建用户画像,并在此基础上分析利用RFM模型构建电子商务用户画像的方法与步骤。
  关键词:电子商务;用户画像;大数据;RFM模型
  引言
  据CNNIC第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国网民规模达7.72亿,普及率达到55.870,其中,网购用户规模达5.33亿,同比增长14.30。随着中国经济已经进入高质量增长阶段,国家供给侧结构调整的改革主线为企业互联网的发展带来了政策红利,2017年《中华人民共和国网络安全法》正式实施,相关配套法规陆续出台,网络交易环境不断得到改善,为电子商务的诚信交易创造了有利的条件,现代物流业的快速发展,我国网络基础设施的不断改善,为电子商务发展提供了重要支撑保障,使得我国电子商务用户规模呈现快速增长。
  在中国网民数量与电子商务市场交易规模持续增长,我国商务大数据建设取得重要进展,覆盖主要平台.主要领域的电子商务运行监测和统计分析体系初步形成的背景下,电商平台在运行过程中存储了海量的交易数据,形成了巨大的数据流量。在大数据背景下出现的云计算、人工智能等数字技术为电子商务创造了丰富的应用场景,不断催生新营销模式和商业业态,电商企业如何有效利用数据资源在快速变化、竞争激烈的市场环境中挖掘用户需求,创新经营,用户画像概念应运而生,其能够完美地抽象出用户的信息全貌,帮助分析用户行为、消费习惯等重要信息。构建精准的用户画像,是提高用户活跃度与复购率的有效手段,是企业运营与决策的重要依据,可以看作为企业应用大数据的根基。
  1、什么是用户画像
  用户画像(Persona)最早是由交互设计之父Alan Cooper提出的,他认为用户画像是真实用户的虚拟代表,是根据一系列用户的真实数据而挖掘出的目标用户模型。用户画像的本质是消费者特征“可视化”,通过收集与分析用户的基本属性、社会交往、行为偏好等多个维度的主要信息,将得到的用户所有标签综合起来,即可勾勒出用户的整体特征与轮廓。在电子商务领域中,用户画像所能实现的客户识别、精准营销、改善经营、拓展市场等功能,是企业应用用户画像的主要驱动力。
  1.1客户识别
  不同的用户对企业具有不同的价值,通过对用户进行多个维度的特征分析,企业可以根据用户贡献度对不同用户进行区分,帮助企业实现对潜在用户的识别,并对不同价值客户采取不同程度的维护手段。
  1.2精准营销
  通过给不同用户打上专属标签,可以重新理解消费者,分析并预测用户的消费行为。不仅能满足消费者日益挑剔的需求,同时也可以促进商品曝光,提高商品成交效率。
  1.3改善经营
  用户画像可以辅助决策者在正确的时间对正确的人开展正确的活动,通过用户画像分析方法改善经营决策,为管理层提供可靠的客户相关数据支撑,可以使经营决策更加高效、敏捷,精确性更高。
  1.4拓展市场
  利用数据挖掘、机器学习等深度挖掘方法构建精准而全面的用户画像,可以使企业更加明晰自身业务的优劣势,在此基础上不断延伸自己业务的应用场景。
  2、用户画像构建研究
  用户画像是通过收集与分析消费者社会属性、行为习惯等主要信息后,抽取用户信息并进行标签化和结构化处理,完美地抽象出一个用户的全貌的过程。其本质是给用户贴标签,一个标签通常是人为规定的高度精炼的特征标识。主要呈现出两个重要特征:一是语义化,如客户类型:忠诚客户,人们能方便地理解每个标签含义,能够较好的满足业务需求;二是短文本。每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作[4]。根据业务需求将不同标签组合成情境化用户特征,构建出精准的用户画像主要包括数据采集、标签体系构建与画像体系构建三个部分。
  2.1用户数据采集
  构建用户画像是为了还原用户信息,确保信息的客观真实性,因此必须遵循一个大的原则:数据来源于所有用户相关的真实数据。在此原则下,为了保证采集到的数据具有可用性,能够满足分析目标,可以将数据采集划分不同维度。在电子商务领域,数据采集维度主要有用户基本信息数据,包括性别、年龄、婚否、收入等;用户内容偏好数据,包括用户的浏览、点击、收藏、评论等;网络行为数据,包括浏览路径、浏览次数、页面停留时长等;用户交易数据,包括购买数量、购买种类、支付金额、购买频率等。这些数据主要来源于用户行为日志、企业后台数据库、客户关系管理系统等。
  2.2标签体系建设
  收集到所需数据之后,需要对数据进行清洗:去重、去异常数据、去刷单数据等,然后再提取所需特征数据用于创建标签。整个标签体系建设的流程通常是标签定义、标签分类分级、标签生产、标签更新、标签查询、标签管理,可以概括为标签设计和标签管理两个部分。
  2.2.1标签设计
  (1)标签分类
  从数据提取维度来看,标签数据可以分为事实标签:既定事实,直接从原始数据中获取;模型标签:没有对应数据,需要定义规则,建立模型进行计算得到标签实例;预测标签:参考已有事实数据,来预测用户的行为或偏好三种标签类型。其中,模型标签和预测标签的生成方法包括统计方法、文本挖掘算法、相似度计算方法、分类聚类算法、推荐算法、机器学习预测算法等。图1展示了三种不同类型标签之间的层次关系。
  (2)标签分级
  由上述事实标签、模型标签、预测标签组合构成的揭示消费者信息全貌的工具即为用户画像,为了展示标签之间的结构与关联关系,方便标签的管理与维护,需要根据实际情况对标签进行分级,建立适合自身业务的标签体系。用户的每个标签都是由属性与权重两个参数组成的,不同属性的重要程度各不相同,可以利用基于信息增益、基于卡方检测等方法进行属性筛選,利用主成分分析法对不同属性进行权值分配。表1给出了电子商务中画像标签体系举例。   2.2.2标签管理
  标签是对用户信息高度精炼的总结,无论是外在环境引导还是用户自身兴趣转移,历史所获用户信息总是不能完全反映未来用户价值,所以需要对用户标签进行管理。标签管理指对标签库中的标签进行长期跟踪管理和维护,为了便于管理,首先通常要对分类分级后的标签采用目录化形式,根据业务搭建好数据建模体系;然后为标签设置权限层级,明确的权限和清晰的层级关系可以使标签管理更加科学有序,避免标签创建过程中出现标签重复、丢失等混乱现象;最后为了提高标签的利用率和准确度,有必要对标签热度进行动态管理,按照标签使用范围、使用频率等对标签进行活跃度排名,使企业清楚看到哪些标签价值最大、最能反映问题,然后据此扩展标签的数据维度。以上三方面对于标签的管理伴随着标签的创建、编辑、评估到审核、删除、停用的整个生命周期过程。
  2.3画像体系建设
  (1)用户画像构建
  用户画像是要根据用户行为偏好和认知差异等,通过用户信息标签化,把具有共同行为特点、同一消费层次的用户划分为同一类别。构建用户画像需要划分用户画像维度,从电子商务的角度来看,用户画像可以从基本属性、行为特征、购买特征、社交特征、心理特征、兴趣特征六个维度进行组合。
  基本特征:通常在注册时引导获取,如手机号码、性别、年龄、教育程度、所属地区等等,可以根据生日、年龄等推断出星座、目前身份等其他属性。
  行为特征:通过分析用户访问来源、访问时长、沟通渠道、支付方式等分析用户的上网行为和购买习惯。
  购买特征:分析用户的购买频率、购买金额等,对用户的消费能力、消费品质、消费刺激进行长时间多频次的建模,判断客户处在价值金字塔的哪一等级,是活跃用户还是沉睡用户等。
  社交特征:分析用户将商品分享给好友的频次,在问答社区及评论区交流的情况,以及收货人地址的数量等,研究用户的社交情况。
  心理特征:分析用户参加促销活动的频次、优惠券消耗情况、同一品牌复购率等情况,推算用户对大促的敏感度、对品牌的忠诚度等。
  兴趣特征:根据搜索类目、浏览类目、收藏类目、长期关注点等,分析用户对某些品牌、品类的偏好度,从而进行某个品类的专场营销活动。
  (2)用户画像管理
  用户的兴趣偏好随时都可能发生变化,为了设计出能更准确的描述用户需求的标签,需要及时根据变化的用户信息更新标签,为了得到能更清晰的描述用户需求的标签,需要对数据进行更细粒度的挖掘,因此,科学的用户画像必须注重时效性和覆盖度,为了满足这两点需求,对用户画像的管理也提出了更高要求。
  首先,为了应对画像数据维度扩大、快速更新、海量增长的存取需求,需要建立起容量大且可扩展性好的画像存储机制;其次,为了实现标签库和业务场景的联动管理,需要建立定时更新机制,根据变化信息不断迭代和优化已有画像,获得对用户描述更加完善和准确的更新画像;最后,为了满足各种不同的画像查询需求,且便于画像实时查询,需建立起满足并行查询、缓存优化和聚合统计等功能的查询机制。做好用户画像管理从长远来看是为企业节省时间和人力成本,是保障企业业务朝正确方向展开的前提。
  (3)用户画像应用
  实际应用中,用户画像需要企业或商家立足自身业务领域,沿着业务需求路线,选取特定角度的标签集合,从整体到细节对标签进行逐级展现,并利用可视化方法勾勒出消费主体的全貌。比如,企业想要进行用户细分,可以调用用户基本特征和购买特征两个维度的标签组合出用户画像,识别出不同价值的客户群体,然后有针对性的进行营销和维护;又如,企业想要探究转化率背后的影响因素,可以调用用户购买特征、心理特征、兴趣特征三个维度组合出用户画像,有人可能是因为评论影响购物决定,有人可能是因为商品展示影响购物决定,有人可能是因为优惠活动影响购物决定,利用用户画像可以方便直观的探究消费者消费偏好背后的原因。图2展示了标签维度与业务应用之间的关系。
  3、利用RFM模型构建用户画像实例
  根据不同用户特征进行用户区分,明确用户处于价值金字塔哪一等级对于电商主体至关重要。根据美国数据库营销研究所研究,客户数据中消费金额、消费频率、消费时间间隔三个要素构成了数据分析最好的指标,利用这三个指标来衡量用户价值、进行用户识别即为RFM模型,在电子商务领域中被广泛使用。本文数据来源为某图书电商2018年1月1日到201 8年4月29日的交易数据,共计5770条。数据的特征维度有买家编号、联系方式、商品名称、支付金额、购买时间、订单状态等,已对用户交易数据进行了脱敏处理。
  3.1数据预处理
  3.1.1数据筛选统计
  RFM模型只针对订单状态为成功的用户,创建订单但没有成功付款的用户订单状态视为失败,首先要把这类用户筛选掉。然后从用户购买特征这一维度出发,对用户一至四月份的数据进行整合,从数据集中抽取出买家编号、支付金额、购买时间三个字段,在此基础上计算“购买频率”、 “平均支付金额”和“距上次购买间隔”。 “购买频率”通过对买家编号进行计数得到, “平均支付金额”通过计算用户4个月的购买总金额算平均值得到, “距上次购买间隔”通过每个用户最后一次购买时间与截止日(将5月1号设置为截止日)相减得到。部分实验数据如表2所示。
  3.1.2变量标准化
  根据对样本数据的分析,各指标数据度量单位各不相同,且不在同一个区间,为避免直接进行数据建模对结果造成干扰,需要将数据进行标准化处理。由于F、M指标对顾客价值存在正相关影响,因此针对这两项指标运用正向指标的标准化方法,标准化公式为:
  其中,X norm表示标准化后的数值,X表示原始值,X min表示该指标的极小值,X max表示该指标的极大值。R指标對顾客价值存在负相关关系,因此对此指标运用负向指标的标准化方法,标准化公式为:   标准化后的部分数据如表3所示。
  3.2利用RFM模型进行K-means聚类
  本文中所采用的数据挖掘工具为WEKA。WEKA作为一个公开的数据挖掘工作平台,功能丰富,集成了大量能承担数据挖掘任务的机器学习算法和统计算法,包括数据预处理、分类回归、聚类以及结果的可视化等。利用WEKA对经处理后的数据进行K-means运算,K值取4,聚类可视化结果如图3所示。
  此次聚类结果分为四簇,其中第一类共981人,占整体人数的17%;第二类共792人,占整体人数的14%;第三类共301人,占整体人数的5%;第四类共3696人,占整体人数的640。当K值取4时,聚类F值为87.35%,且通过上述可视化图像可知,每个用户群体分布明显,同一簇内距离紧凑,不同簇间界限清晰,说明本次聚类效果较好。
  3.3实证结果与分析
  将聚类结果细节信息提取出来,如图4所示。根据结果可以明显看到四类不同特征的消费群体。第一类消费者购买金额较低,消费时间间隔较久,给企业带来的利润较小,属于低价值客户;第二类消费者购买频率不高,但单次购买金额较高,说明此类用户可能为企业或者学校用户,属于高价值客户,企业应重点维护此类用户,谋求与此类用户的长期合作;第三类消费者购买频率较高、但单次购买金额不高,说明此类用户可能为经常购买但每次购买数量较少的散客,属于对企业较为忠诚的客户,针对此类用户,企业可通过赠送积分、会员折扣等针对性措施来提高此类用户的留存率,使其持续为企业创造利润;第四类消费者购买频次不高、购买金额属正常范围,说明此类用户为最普通的一类用户,有需要了才来购买,对企业的忠诚度一般,对此类客户,可通过个性化推荐进行精准营销,经常为其推送感兴趣的图书新品,通过刺激消费促使其转化为企业忠诚客户。
  以某一位用户为例,以RFM模型结果为主,结合其他特征,利用可视化方法为其刻画用户画像,如图5所示,字号越大,代表权重越大。
  4、总结
  大数据时代下,消费者在网络上的行为被充分的记录下来,用户画像作为大数据环境下的用户描述工具,凭借其用户描述与建模上的优势,在电子商务领域被广泛应用。本文围绕电子商务领域中经常关注的用户购买习惯、购买行为、兴趣爱好、社交态度等特征,给出了在该领域构建用户画像的思路,并从用户购买习惯这一维度出发,给出了利用RFM模型获得预测标签,然后通过贴标签构建用户画像,对用户价值进行区分以帮助电商主体精细化定位人群特征,挖掘潜在用户群体的实例。用户画像现已不仅仅停留于电商领域,各领域都涉及并需要构建用户画像,只是根据业务需求侧重点有所不同,今后,各行业需要不断完善用户画像的内容和应用,更好的利用数据服务用户和业务发展。
  参考文献:
  [1]谢康,吴记,肖静华.基于大数据平台的用户画像与用户行为分析[J].中国信息化,2018(3):100-104.
  [2]张小可,沈文明,贝叶斯网络在用户画像构建中的研究[J].移动通信,2016(22):22-26.
  [3]赵刚,姚兴仁.基于用户画像的异常行为检测模型[J].信息网络安全,2017(7):18-24.
  [4]刘蓓琳,张琪,基于购买决策过程的电子商务用户画像应用研究[J].商业经济研究,2017(24):49-51
  [5]王晓东,陈波,陈增伟,运用涉税大数据为纳税人贴标画像的探索[J].税务研究,2017(395):112 -113.
  [6]徐文瑞.基于RFM模型的顾客消费行为与顾客价值预测研究[J].商業经济研究,2017(19):44-46
其他文献
在人的身体里,有许多部位可以生出“石头”来。每种石头都是一种疾病的表现。  眼里的结石  人的眼皮的内面,称为“睑结膜”,如果翻开眼皮,看到大小不一的黄白色小点,质硬如石,这就是“结膜结石”。这种小结石,是由于患了慢性结膜炎之后,或者长期多次灰沙入眼,使纤维质变性所形成的,对眼睛有一定的危害。  奇怪的鼻石  人的鼻腔内也会有石头生长,大的重达110克。这是因为鼻腔常常将鼻涕、脏物浓缩成痂皮;或是
经常在门诊见到一些患者诉耳痒、耳痛,或者仅诉耳部不适,其中有一部分患者与平素不正确的用耳习惯有关。  不要经常挖耳  经常挖耳会损害外耳道局部皮肤及表面附属成分,影响耵聍(即耳屎)的正常外排,降低外耳道皮肤防御功能,会导致外耳道感染,形成外耳道炎、外耳道疖肿、湿疹、霉菌感染等。由于耳部皮肤下脂肪层较薄,这些疾病往往会导致耳部剧痛、红肿、瘙痒。另外耵聍外排障碍,耵聍积聚,以后如果外耳道进水会膨胀压迫
健康人尿中蛋白质的含量很少(每日排出量小于150 毫克),蛋白质定性检查时,呈阴性反应。当尿中蛋白质含量增加,超过150毫克/天,普通尿常规检查即可测出,称蛋白尿。如果尿蛋白含量≥3.5克/24小时,则称为大量蛋白尿,常见于肾病综合征患者。  蛋白尿是慢性肾病的典型症状, 出现蛋白尿在排除其他如生理性因素、体位性因素等原因外,通过肾脏B超检查、肾功能检查、尿常规检查等,基本上可以判断是肾脏受损而导
糯米是大众常见的主食类食物之一,它口感软糯,做法多样,受到老百姓的喜爱,无论是元宵还是粽子,都是糯米来充当主要角色。关于糯米,不少人也有一些困惑——中医认为糯米可以“健脾养胃”,但我们却常常听到一些医学专家嘱咐患者“糯米不易消化,消化能力不好的人要少吃”。那么,糯米到底是有助消化还是阻碍消化?要怎样吃才健康?  消化速度快,但是不完全  医学专家不建议大家多吃糯米,就是因为糯米的消化速度快,却消化
人工耳蜗,顾名思义就是人造耳蜗,是替代病损耳蜗实现感音与传声功能的“人造器官”。如果术前检查、诊断和评估全面准确,手术顺利成功,患者听力能够得到理想的恢复。即:从频率上可以实现70~10000Hz的全频自然的听觉重建;从响度上可以实现20~30分贝的正常听力重建。如此,原本极重度听力损失的听力从90~110分贝可以提高到20~30分贝的正常听力或极轻度听力损失状态。  人类听觉与声音理解、语言交流
介绍一种综合型的实验实训平台,该平台适合各大中专院校和培训机构的实验实训教学和项目考核。
我亲爱的小患者:  你们好。  每当我看到你们,我都会想起年龄和你们相仿的我的儿子;每当我看到你们,我都会感觉心里紧缩,甚至有些窒息。我好害怕,害怕我的孩子会不会也生病,怀疑我能不能像你们的伟大父母一样,克服重重困难为你们治疗,为你们忍受难以想象的痛苦。  你们的父母和家人真是非常伟大,非常了不起。我常常想:如果换成我会怎么样?我是否会做得很差,我是否会放弃,我是否会心理崩溃……  也许上帝对你们
自2013年以来,大宗商品市场开始遭遇产能过剩的发展瓶颈,供不应求的卖方市场不复存在,大宗商品企业纷纷开设垂直电子商务平台以寻求转型。本文以瑞茂通为例,结合其推出电商平
针对船载设备上的气液换热器振动试验过程中出现的风机故障,根据随机振动信号与风机的固有频率特点,找出风机中的应力集中点,解释风机在随机振动信号下失效的主要原因。
【生活实例】  一天傍晚,一位中年男士推着轮椅上坐着的妻子匆忙走进忙碌的急诊室,只见轮椅上坐着的女士神态萎靡。患者2年前有过急性心肌梗死,经过积极抢救治疗,做了急诊心脏血管支架置入手术,出院后恢复得很好。然而,当天傍晚,两人在饭后散步时,妻子突然感到头晕无力,缓慢倒在地上,神志清醒。医生检查后发现,患者心跳规则,但是不到50次/分钟,血压平稳,此后心电图检查发现心率为46次/分钟,没有心肌梗死或心