基于“用户行为”画像的实证研究

来源 :科技风 | 被引量 : 0次 | 上传用户:lzwyy198552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文从分析用户的历史交易行为入手,研究用户行为画像的方法、用户行为建模指标、算法分析等内容。并通过实例分析建立用户画像模型的方法和步骤,取得了比较好的效果。
  关键词:KMeans算法;用户画像;用户行为
  一、问题的提出
  Alan Cooper最早提出了用户画像(Personas)的概念,Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型,通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个人物原型(Personas)。
  二、用户行为画像方法论
  用户画像可以基于定性的方法也可以基于定量的方法,用户数据的定位可以来源于静态数据,例如年龄、性别、地域、婚姻状况、资产特征等人口社会属性;也可以来源于动态数据,例如浏览、搜索、点击、购买等行为特征。在电商行业中,用户画像可以分析用户的使用习惯、喜好、一系列的购买行为,以及周边的人群的身份、属性、年龄等。
  本论文认为用户的历史交易行为决定了用户未来的消费倾向和消费行为,而用户的基础属性是隐性的,通过用户的行为特征更容易挖掘用户的特点,更容易与营销结合。本文以某电商自营平台半年的交易数据为例根据用户的不同方面所具有的行为特征建立用户的行为模型进行数据挖掘,针对用户不同方面的行为及各行为间内部相关联的行为特征从数据的角度去研究用户的行为模式,并将这些行为模式的内容和所具有的规律进行描述。
  三、用户行为建模
  (一)用户消费行为指标的建立
  建立用户消费行为指标其实质就是为消费行为模型选择细分变量,在这个基础上对用户进行识别和画像。本文用RFM模型的三个行为变量来描述和区分用户的消费行为,来进行用户消费行为指标的建立,并不用传统的RFM分析对用户进行打分和排序。指标说明如表1所示。
  (二)算法分析
  在算法的选择方面,采用聚类分析方法,聚类的其目的是挖掘出数据之间潜在的自然结构关系,将用户划分成互不相交的类别。在同一类别里,用户具有相似的特征。
  1KMeans聚类算法
  KMeans算法是1967年由MacOueen首次提出的一种经典算法。基本思想是把待聚类的对象划分成k个类,用户要指定聚类的个数k。接下来要通过迭代运算将对象所属的类进行调整,不断的迭代直到各个类别中的对象不再发生变化,就完成了聚类。
  算法具体形式如下:
  E=∑ki=1∑p∈ci|p-mi|2
  2算法描述
  KMeans算法的处理流程如下:首先,随机选这k个对象,每个对象代表一个簇的初始均值或中心,对剩余的每个对象根据其与各簇中心的距离将它指派到最近的簇,然后算每个簇的新均值,得到更新后的簇中心,不断重复直到函数收敛。
  四、实证研究
  无锡某电器科技有限公司是一家利用高科技的技术及精密的仪器设备生产便携式照明产品的公司。公司上百种产品,建有自营电商网站。对电商企业来说如何识别用户、了解用户的特征对企业制定营销策略、提供个性化服务至关重要。本文从企业数据库中抽取了100个用户半年的脱敏后的交易数据作为数据分析的样本数据。
  (一)用户消费行为分析表
  由于企业交易数据库中并没有我们建立用户消费行为指标所需要的字段,所以首先建立用户消费行为分析表,定义用户ID、平均销售金额、消费频次、上次购买时间等四个字段。字段名、数据类型等如表2所示。
  (二)数据处理
  然后进行数据处理,数据部分是整个模型的基础,拿到样本数据以后并不能直接进行聚类分析,还要检查数据是否有问题。
  对于无效的值和空值要进行删除处理,本文应用替换法对无效值和空值进行处理,即用改变量在其他所有对象的取值的均值来替换变量的值。对于数据范围超出范围的数据或者矛盾的数据和不合理的数据要进行检查,去掉数据中的异常值,本文异常值视同无效值和空值,处理方法同上。
  對用户近半年的数据进行整合。从数据库中抽取出用户编号、用户购买时间、销售金额三个字段。在此基础上计算“平均销售金额”、“消费频次”和“上次购买间隔”。“平均销售金额”用用户6个月的消费金额算平均值。“购买频率”是将用户编号进行计数得到。每个用户年度中最后一次购买时间与截止日(将7月1号设置为截止日)相减得到“上次购买间隔”。
  部分样本数据,如表3所示。
  (三)变量标准化
  根据对样本数据的分析,各指标数据不在同一个区间,甚至不在同一个数量级,这样直接聚类建模势必对结果产生干扰。因此为了弱化这个因素对于结果的影响,在建模前要对数据进行处理。本文采用各变量相对于平均值的偏离程度代替变量的绝对值,这也是数据标准化的重要步骤。
  (四)KMeans聚类
  在进行聚类分析前,还要确定聚类参数K,它是聚类数目。按照以往的经验K值过大或者过小都会对对聚类结果产生较大影响。一般情况下,如若K值取值过小,会导致不同的用户群之间特征不明显,同一群中用户数过多,不能发现有效的细分模型,这样的用户群画像也就毫无意义。如若K值取值过大,会导致类别太多,同一类中特征不明显,生成众多无意义的用户群,对市场营销策划无任何指导意义。因此要得到较为合理的K需要经过反复多次的试验,得出最终的最佳K值。考虑到公司产品较少,用户的偏好不显著,另外选取的数据库的样本数据较少,再结合经验初步将聚类数K值定为3-5之间。分别取K值为3,4,5进行聚类分析。试验多次并从中选择最优的方案。
  本文的实验环境:CPU:Inter Core i5 2.5GHz,4GB内存,Windows 7 旗舰版,R软件。程序代码(略)。   当K取值分别为3、4、5时,分别进行聚类实验,结果说明如下:
  ①当K取值分别为3时,进行聚类实验,结果如图1所示。
  ②当K取值分别为4时,进行聚类实验,结果如图2所示。
  ③当K取值分别为5时,进行聚类实验,结果如图3所示。
  通过对以上三个K值分析检验结果的比较,当聚类数定位3时,每个用户群体分布明显,群体之间的界限清晰,聚类效果较好。因此将聚类数定为3类是最理想的聚类结果,根据对应的用户归属类别如表5所示。
  (五)群体画像分析
  根据聚类结果3个类别的数据可以明显看到3类不同消费群体的特征,C1类用户户关心价格,消费频次不高,客单金额小,对企业的信任度不高,给企业带来的利润小;C2数量最多,对企业电子商务网站产品持肯定的态度,交易稳定是企业稳定生存的基础;C3类用户消费频次高,平均消费金额高,是企业可以从中获得利润最大的群体潜在用户消费者。
  五、總结
  对用户进行精心化的描述,使企业对用户的了解更加准确,能有效提升精准营销的效果,从而采取精细化个性化的服务来更好的满足用户需求、提升营销效果、改善用户体验,并且能降低成本、增加收入,同时实现用户针对性管理。因此具有明确的经济效益。本文提出了一种完全依据用户消费行为建模来进行用户画像的方法,以此来描述用户群的特征、刻画用户群的行为。通过实例表明这种方法是有效的,很好的符合了客观实际、精确的刻画了用户群的特征,为根据不同类型用户群提供个性化服务提供了依据。
  参考文献:
  [1]Aly M,Hatch A,Josifovski V,et al.WebScale User Modeling for Targeting[C].Proceedings of the 21th international conference companion on World Wide Web.Lyon,France:ACM,2012.
  [2]吕斌,张晋东.基于RFM模型的商业银行营销决策分析[J].统计与决策,2013,(14).
  [3]徐翔斌,王佳强,涂欢,穆明.基于改进RFM模型的电子商务客户细分[J].计算机应用,2012,32(5).
  [4]王文贤,金阳,陈道斌.基于RFM模型的个人客户忠诚度研究[J].金融论坛,2012,(3).
  [5]于海涛,李莘,姚念民.Kmeans聚类算法优化方法的研究[J].小型微型计算机系统,2012,10(10).
  基金:本文为无锡职业技术学院人才工程校级科技课题“基于大数据的用户画像模型及可视化研究”(课题编号:3116021931)阶段成果
  作者简介:赵建伟(1980-),男,硕士,无锡职业技术学院讲师,研究方向:电子商务与数据化营销。
其他文献
摘 要:随着经济社会的发展,医药包装也在更新换代。非PVC双管输液袋有其无可比拟的优势,成为发展新趋势,将可取代玻璃输液瓶和单管PVC输液袋,且在实用方面具有有广阔的市场前景。  关键词:非PVC;双管输液袋;医药包装  一、产生背景  目前我国引进的非PVC静脉输液软袋生产线还停留在单管软袋输液生产线上,鲜有引进非PVC高分子复合膜双管双阀静脉输液袋生产线所生产的产品。使用非PVC软袋包装已成为
期刊
摘 要:本文从大学信息化对高等教育造成的影响入手,简要介绍当前高等教育发展趋势及变革情况,旨在转变当前高等教育理念,促使高等教育与信息技术相结合,促进高等教育发展。  关键词:高等教育;发展趋势;信息化  随着计算机技术、网络技术的进步,各行各业发生了翻天覆地的变革,在高等教育中,由于信息化水平的提升,致使高等教育进一步发展,传统高等教育模式与网络信息技术相结合,从而形成创新性、差异性水平较高的高
期刊
摘 要:围绕中国制造2025发展战略,高职院校智能制造类专业主动适应经济社会发展新常态要求,以培养高素质技术技能型复合人才为目标,积极探索智能制造技能大师工作室,改革人才培养模式。  关键词:智能制造;技能大师;工作室  中国制造2025指出,产业发展要顺应“互联网+”的发展趋势,以信息化与工业化深度融合为主线,重点发展高档数控机床和机器人等10大领域,提高先进装备制造业产能的比例,促进传统工业转
期刊
摘 要:呼吸机的应用拯救了大量危重患者的生命,研究显示,呼吸机也是临床中使用风险最高的医疗器械,一旦发生风险,将造成不可预估的损失。所以说临床上医疗设备的使用安全性关系到每一个患者的安全,基于此,本文对呼吸机应用中的医疗风险进行分析,并提出相应的对策与注意事项。  关键词:呼吸机;医疗风险;对策  在临床上,很多时候都需要使用到呼吸机,因为医院每天都要面对很多的重症患者。对于这些重症患者来说,他们
期刊
摘 要:在大数据时代,通过强化高校信息化教学,构建高校信息化教学体系,可以提升高校总体教学水平,营造稳定的发展环境,提升高校综合教学和教学水平。通过优化信息化教学方式和体系,可以实现高质量教学目标,为高校教学开展打下更坚实的基础。  关键词:大数据;高校教学;信息化;教学创新  随着现代科学技术的快速发展,我国开始进入大数据时代,大数据技术也开始应用到社会工作的方方面面当中[1]。在大数据时代,高
期刊
摘 要:10千伏手车开关广泛应用于电力系统110千伏变电站。10千伏断路器底盘车故障包括行程开关不到位,机械连杆卡死,辅助开光接触不良的情况。目前的处理方法是需要协同人数多,且存在损坏设备等隐患。本文提出一种新型底盘车检修平台,介绍其结构和功能,最后介绍了该平台的优点。  关键词:手车开关;底盘车;检修平台  一、背景介绍  10千伏電压等级开关柜大规模应用在110千伏变电站中,10千伏断路器底盘
期刊
摘 要:笔者试图结合业务实际来具体地研究小煤矿机电设备安全方面存在的问题,给出合理的解决策略,促进我国整体煤炭行业业务的安全性提升。  关键词:机电管理;责任制度;规范管理  煤矿机电设备的安全管理是做好煤炭行业安全保证的重要工作,在机电设备和人员管理的体系之中占据着重要的地位。随着我国科学技术水平的提升和经济的发展,越来越多的各类机械化设备被运用到了实际的工作中,这就给具体机电设备的安全管理工作
期刊
摘 要:随着计算机科学技术,网络技术和多媒体应用技术的日新月异,人们的生产生活方式,学习学术研究方式和工作方式都在每天发生着巨大的变化,对于现代教育发展产生了巨大的影响。为了适应新的形式,将科教兴国的战略进一步落实,教育信息化已经成为我国职业教育改革发展的新起点、新要求,信息化环境下的教与学也就成了教育学者面临的新课题、新热点。  关键词:轨道车辆;信息化教学;车辆电子  一、信息化教学设计内涵 
期刊
摘 要:在“互联网+教育”的时代背景下,A校建设的医学教学素材库是基于网络技术的数字信息集群,可使复杂知识简单化、抽象内容具体化、单一资源多样化,优化教学效果,深化教育改革。但素材库建成至今,使用情况却不甚理想,导致该现象的原因主要是学校宣传力度不够、素材库入口难找;资源陈旧单一,达不到前沿水平;资源与教学脱钩,适用性不强以及教学、学习任务繁重等,对此,在文章最后提出整改策略。  关键词:医学教学
期刊
摘 要:慢行交通是一种可持续发展的交通模式,有提高短程出行效率、填补交通服务空白、保障弱势群体出行便利等作用。本文进行调研不同道路的尺寸及断面形式,考虑人的安全性和舒适性,挖掘目前慢行交通使用率低的原因,对石景山区现有交通系统提出改进建议,以营造环境优美、尺度宜人、高度人性化的慢行交通环境。  关键词:慢行交通;道路交通系统;人性化;慢行设施;慢行环境  1 研究背景  北京市交通委发布的数据显示
期刊