论文部分内容阅读
摘要:进店维修的客户流量是卡车维修店铺运营的关键,对客户身份的识别是统计客流量的前提。本文以某商用车维修服务站为研究对象,参考基于手机信令数据的职住空间识别思路,设计层次化数据清洗流程,最终从多类型人群中筛选出了进店维修目标群体(卡车司机)的手机信令数据,为下一步统计分析维修店铺客流量提供依据。
关键词:维修服务站;手机信令数据;数据清洗;卡车司机
2019年度中国汽车售后服务满意度调查报告结果显示重卡用户去往维修点的分流比例中品牌授权特约维修站占77%,非授权修理厂、路边店等占23%,此满意度调查覆盖全国23省,10大重卡品牌[1]。近些年随着商用车技术的不断发展,卡车车型也随之更新换代,路边店已无法胜任一些专业维修工作。因此对维修店的评价显得尤为必要,评价的基础就要对其客流量进行评价,利用手机信令数据识别卡车司机轨迹是解决这一问题的关键。
一、数据来源
原始手机信令数据的基本格式包含手机用户唯一识别码IMSI号、时间戳、信令数据所属基站位置区编号LAC、基站小区编号CeLL-ID、事件类型等几个字段。每个字段的说明如下:
(1)IMSI (International Mobile Subscriber Identity),国际移动用户识别码,存储于手机SIM卡,和手机号对应,具有唯一性,类似于手机卡的“身份证号”,用以标识和区别用户。
(2)LAC(位置区码)和CI(小区识别码):LAC(location area code ),移动通信系统中的位置区码,记录的是某个基站所覆盖的一片区域,也叫一个大区或基站区。一个基站区可包含一个或多个小区,而一个小区又对应一个小区标识,就是基站小区号,即CI(Cell Identity),可以通过LAC和CI确定较为准确的用户位置信息。一般而言,基站密度越大,覆盖范围越小,定位精度越高。用户密集的市区,通信业务量大,基站也多,基站间距为300 m左右[2],覆盖半径一般在100-200米左右;郊区、县城的基站间距为600 m左右,单个基站覆盖距离300 m左右。理想的小区形状是正六边形的蜂窝网状。
(3)位置更新和周期性更新:当手机用户因为位置不断变化而从一个基站小区移动到另一个基站小区时,用户的通信链路就会因为接收信号的强度从原基站切换到当前基站进行通信联系。当手机获悉自己当前的位置区有所变化时,会主动与无线网络联系,广播自己的位置;当位置区长时间没有变化时(长时间停留在某处、手机关机等),网络会要求手机周期性(按一定时间)报告自己当前所处的位置信息。周期性位置更新事件可以提高用户信令数据产生的频率,提高其行为轨迹的定位精度。
(4)时间戳:记录了用户每个移动轨迹点的发生时间,也是触发某种信令事件的时间,精确到秒。
(5)信令事件类型:记录了觸发手机信令数据的用户手机业务类型,如开关机、收发短信、主叫被叫、正常位置更新、周期性位置更新、访问网络等。
(6)用户基本属性信息:手机号、年龄、性别、号码归属地等信息,这些数据会做脱敏处理后用于模型计算。
本研究使用的手机信令数据由中国联通公司提供,首先要对研究的维修站进行空间位置和边界的明确[3],建立基站和维修点的映射关系,用于将手机用户的位置匹配至实际区域。本文选取某商用车维修服务站所在园区中心为圆心,以能覆盖住整个园区的半径350米画圆,此圆的覆盖范围即为电子围栏研究区,研究此区域内基站产生的信令数据。
二、数据处理
要实现基于手机信令数据的卡车维修店铺客流量统计,核心前提是利用运营商的信令数据分析完成对进店维修人群的识别,去除非修车司机数据。文章在充分分析不同时段内职住地用户活动行为特征和各种噪声数据特点后设计了层次化的数据清洗思路,具体如下:
定义在设定的研究时间段内获取的研究区域基站产生的手机信令数据为数据集N1。
第一步:输入N1,输出20-60岁男性数据集N2。据统计,卡车司机群体中的男性比例大概占99%,只有极少数的女性。同时,《机动车驾驶证申领和使用规定》要求A1、A2、B2驾驶证的申请和使用年限在20周岁以上,60周岁以下。所以第一步剔除女性数据和<20岁,>60岁的人口。
第二步:输入N2,去掉缺失数据、错误数据和触发事件失败数据后输出数据集N3。因为网络连接不畅、设备故障等原因造成某些属性值缺失的数据叫缺失数据,在一定程度上会影响结果的有效性,但此部分数据总量较小,直接将关键字段(如IMSI、LAC、ID)缺失及字段有误的对象进行删除对整个分析结果影响不大;错误数据是指不在研究范围内的数据,如日期不对或者超出研究区域的信令数据,此部分数据比较容易将其删除;触发信令数据失败的事件类型主要有:呼叫失败(主叫、被叫)、收发短信失败和位置更新失败(正常位置更新、周期性位置更新),因为触发事件失败原因不明,信令数据中的表征的地理经纬度可能并非用户的真实位置反映[4],为了减小误差,也将此类型数据进行删除。
第三步:输入N3,去掉重复数据后输出数据集N4。重复数据的产生一方面是因为手机用户在同一个位置区域频繁发生上网、通话或收发短信等通信活动,在短时间内产生连续位置相同的信令数据;另一方面是周期性位置更新,当手机长时间处于某个基站覆盖范围内又没有发生其他通信活动或跨区移动现象触发信令数据时,网络会要求手机每隔1个小时[5]左右上报自己的位置信息以便掌握手机当前状态,所以当卡车司机进入维修站大修、居民白天夜里在家和职员在公司上班时,用户手机都有可能产生多条字段完全相同的重复数据,此类数据增加了无效样本量和计算工作量,因此予以排除。
关键词:维修服务站;手机信令数据;数据清洗;卡车司机
2019年度中国汽车售后服务满意度调查报告结果显示重卡用户去往维修点的分流比例中品牌授权特约维修站占77%,非授权修理厂、路边店等占23%,此满意度调查覆盖全国23省,10大重卡品牌[1]。近些年随着商用车技术的不断发展,卡车车型也随之更新换代,路边店已无法胜任一些专业维修工作。因此对维修店的评价显得尤为必要,评价的基础就要对其客流量进行评价,利用手机信令数据识别卡车司机轨迹是解决这一问题的关键。
一、数据来源
原始手机信令数据的基本格式包含手机用户唯一识别码IMSI号、时间戳、信令数据所属基站位置区编号LAC、基站小区编号CeLL-ID、事件类型等几个字段。每个字段的说明如下:
(1)IMSI (International Mobile Subscriber Identity),国际移动用户识别码,存储于手机SIM卡,和手机号对应,具有唯一性,类似于手机卡的“身份证号”,用以标识和区别用户。
(2)LAC(位置区码)和CI(小区识别码):LAC(location area code ),移动通信系统中的位置区码,记录的是某个基站所覆盖的一片区域,也叫一个大区或基站区。一个基站区可包含一个或多个小区,而一个小区又对应一个小区标识,就是基站小区号,即CI(Cell Identity),可以通过LAC和CI确定较为准确的用户位置信息。一般而言,基站密度越大,覆盖范围越小,定位精度越高。用户密集的市区,通信业务量大,基站也多,基站间距为300 m左右[2],覆盖半径一般在100-200米左右;郊区、县城的基站间距为600 m左右,单个基站覆盖距离300 m左右。理想的小区形状是正六边形的蜂窝网状。
(3)位置更新和周期性更新:当手机用户因为位置不断变化而从一个基站小区移动到另一个基站小区时,用户的通信链路就会因为接收信号的强度从原基站切换到当前基站进行通信联系。当手机获悉自己当前的位置区有所变化时,会主动与无线网络联系,广播自己的位置;当位置区长时间没有变化时(长时间停留在某处、手机关机等),网络会要求手机周期性(按一定时间)报告自己当前所处的位置信息。周期性位置更新事件可以提高用户信令数据产生的频率,提高其行为轨迹的定位精度。
(4)时间戳:记录了用户每个移动轨迹点的发生时间,也是触发某种信令事件的时间,精确到秒。
(5)信令事件类型:记录了觸发手机信令数据的用户手机业务类型,如开关机、收发短信、主叫被叫、正常位置更新、周期性位置更新、访问网络等。
(6)用户基本属性信息:手机号、年龄、性别、号码归属地等信息,这些数据会做脱敏处理后用于模型计算。
本研究使用的手机信令数据由中国联通公司提供,首先要对研究的维修站进行空间位置和边界的明确[3],建立基站和维修点的映射关系,用于将手机用户的位置匹配至实际区域。本文选取某商用车维修服务站所在园区中心为圆心,以能覆盖住整个园区的半径350米画圆,此圆的覆盖范围即为电子围栏研究区,研究此区域内基站产生的信令数据。
二、数据处理
要实现基于手机信令数据的卡车维修店铺客流量统计,核心前提是利用运营商的信令数据分析完成对进店维修人群的识别,去除非修车司机数据。文章在充分分析不同时段内职住地用户活动行为特征和各种噪声数据特点后设计了层次化的数据清洗思路,具体如下:
定义在设定的研究时间段内获取的研究区域基站产生的手机信令数据为数据集N1。
第一步:输入N1,输出20-60岁男性数据集N2。据统计,卡车司机群体中的男性比例大概占99%,只有极少数的女性。同时,《机动车驾驶证申领和使用规定》要求A1、A2、B2驾驶证的申请和使用年限在20周岁以上,60周岁以下。所以第一步剔除女性数据和<20岁,>60岁的人口。
第二步:输入N2,去掉缺失数据、错误数据和触发事件失败数据后输出数据集N3。因为网络连接不畅、设备故障等原因造成某些属性值缺失的数据叫缺失数据,在一定程度上会影响结果的有效性,但此部分数据总量较小,直接将关键字段(如IMSI、LAC、ID)缺失及字段有误的对象进行删除对整个分析结果影响不大;错误数据是指不在研究范围内的数据,如日期不对或者超出研究区域的信令数据,此部分数据比较容易将其删除;触发信令数据失败的事件类型主要有:呼叫失败(主叫、被叫)、收发短信失败和位置更新失败(正常位置更新、周期性位置更新),因为触发事件失败原因不明,信令数据中的表征的地理经纬度可能并非用户的真实位置反映[4],为了减小误差,也将此类型数据进行删除。
第三步:输入N3,去掉重复数据后输出数据集N4。重复数据的产生一方面是因为手机用户在同一个位置区域频繁发生上网、通话或收发短信等通信活动,在短时间内产生连续位置相同的信令数据;另一方面是周期性位置更新,当手机长时间处于某个基站覆盖范围内又没有发生其他通信活动或跨区移动现象触发信令数据时,网络会要求手机每隔1个小时[5]左右上报自己的位置信息以便掌握手机当前状态,所以当卡车司机进入维修站大修、居民白天夜里在家和职员在公司上班时,用户手机都有可能产生多条字段完全相同的重复数据,此类数据增加了无效样本量和计算工作量,因此予以排除。