论文部分内容阅读
摘要:基于小猪平台的微观数据,挖掘在线短租服务的决定因素。运用python网络爬虫技术获得房源的有关数据,对影响因子进行Lasso变量识别和决策树CART算法的预测。研究结果表明,订单的接受率、价格、点评数、交通位置和是否为超棒房东这五个变量对房源的订单量有显著影响。运用决策树CART算法对识别后的变量进行预测,研究结果显示,决定性影响因素模拟的订单量预测值能够很好的拟合真实值,进一步证明了在线短租共享服务的决定性因素甄别的合理性。
关键词:在线短租 决定因素 Lasso变量选择 决策树CART算法
一、引言
近年来,互联网消费带动了共享经济的繁荣发展。2010年,由互联网搭建双边市场交易平台,在线短租业务在中国兴起,它是中国住宅租赁市场出现的一种以房屋共享租赁为特征的新型经济模式。虽然在线短租业务在中国发展时间不长,但行业增长迅速。据iiMedia Research(艾媒咨询)权威发布《2018-2019中国在线租房行业专题报告》数据显示,2018年中国在线短租市场交易额达178.08亿元,用户规模达1.47亿人,同比增长83%,预计2020年用户规模将达到3亿人,在线短租市场的持续升温,为中国住宅租赁行业创造了新的经济增长点。
但与此同时,数据也显示,在线短租用户规模的增长率已经从2017年的103%下降至2018年的83%,预计到2020年,用户增长率将降至30.6%,中国在线短租行业规模的增长率逐年下降,表明用户对短租市场房屋共享需求发生了转移,那么,是什么因素影响了用户对在线短租的需求呢?
在线短租共享租房追求以人为本和可持续发展的经济发展目标,在满足消费者多样化需求的同时,以低成本、高效率匹配的方式达到了空余房源的合理利用和用户最佳体验的目的。与传统租赁相比,在线短租满足各类人群的不同租房需求,实现了房源的供需双方快速匹配与交易。因此,在线短租的交易过程,供需双方信息显露在平台上,特别是用户在体验了短租服务后会将自己的体验信息公布于平台用户栏中,这些信息对引导新的用户选择房源与房东具有很强的导向性。如何运用数据挖掘方法挖掘这些信息,甄别在线短租共享服务的决定性影响因素,不仅能够回答在线短租服务用户需求诉求状况,对指导在线短租行业稳定持续发展也具有重要意义。
本文通过Lasso变量识别和决策树CART算法,甄别在线短租共享服务的决定性影响因素。研究特色在于:(1)基于在线短租服务信息相对对称的特征,利用python挖掘在线数据,利用在线数据信息抓取数据共同特征,遵循了大数据数字信息经济的研究范式;(2)采用Lasso变量识别的方法识别变量,并配备决策树算法进一步验证,在研究方法上体现了大数据研究方法的功能。
二、文献综述
在线短租是房屋的承租人通过互联网或移动互联网的方式查询及预订短租住房,与房屋的所有者或经营者通过线上平台形成租赁关系。互联网技术的进步促使了新的经济模式的产生,共享经济带来了住房的共享消费。相较于传统租赁,共享租房降低了失业率,增加了家庭收入。虽然在不同的研究领域,在线短租的定义能够达到一致性。但是,在线短租的研究侧重点比较分散,学者们从不同的层面分别给出了不同的研究结论,主要表现在两个方面:(1)在线短租的影响因素。影响因素研究主要集中在在线短租的消费动机、消费信任、购买意愿、房源价格等方面。传统住宿业的消费者选择酒店住宿服务的主要动机只包含了“价格、住宿设施和位置”,而在线短租的使用者在选择住宿时有其特殊的需求,即“居家性、社交性和原真性”三大动机。基于消费者信任的角度考虑,在线度假租赁通过个性化的服务将游客和业主联系起来。马磐昊基于信任理论从房东属性和信誉的角度研究了信任对房源销量的影响,并强调了信任建立对在线短租发展的重要性。在逐渐替代传统酒店住宿的发展趋势中,在线短租服务的信息对称性也在潜移默化地改变消费者的购买意愿和决策。由于网络消费的公开透明性,评论信息是影响消费者决策的重要因素,总体评分和房源价格对用户的购买意愿影响显著。反过来,价格也能影响消费者的决策。除此之外,房源价格与短租消费者的家庭可支配收入、年龄、好评率的关注度、对用户评价的关注度等具有较强的相关性。(2)在线短租的影响因素的分析方法。从使用的研究方法来看,传统的统计分析方法和数据挖掘法是研究在线短租影响因素常用的方法。赵建欣通过相关分析和回归分析得出中国地区和美国地区购买意图是基于不同因素的影响。张广宇和叶作亮通過建立线性回归模型分析了酒店特征信息、顾客评论信息和预订平台信息对酒店在线预订的影响。基于负二项面板回归模型,房东属性对在线短租房源订单增量有显著影响,并且该模型具有一定的鲁棒性。王佳园和徐薛艳通过建立服务质量评价的指标体系将网络文本分析应用于在线短租的影响研究,强调要提高在线短租服务质量的重要性。
在线短租的特征是供需双方的信息披露过程,但综述现有研究成果发现,大部分学者在考察在线短租的影响因素时要么立足于用户,要么立足于房东,这种单视角分析使在线短租信息披露得不到完整的体现。另外,在分析方法上,采用回归分析通过事先预设影响因素可能会使得一些重要因素排除在研究范围外而得不到体现。本文根据在线短租平台上披露的信息,运用Lasso选择变量的方法对各项指标进行变量识别,并利用决策树CART预测算法加以验证。相较已有研究,本文最大的特色在于:在遵循大数据的研究规律与研究方法基础上去实现甄别在线短租共享服务的影响因素研究。
三、研究方法与数据来源
(一)研究方法
对数据变量进行降维和决定性影响因素的选取有很多种方法可以选择,本文在对在线短租的数据特征和数据挖掘方法的研究基础上,决定使用Lasso选取变量的方法和分类回归树CART算法结合的方式来研究在线短租服务的影响因素。
1.Lasso变量选择法.在以往的文献中,经常采用普通最小二乘法对在线消费的影响因素进行实证研究,建立回归模型并进行假设检验,对解释变量的选取采用的则是逐步回归。然而,在处理高维度大数据样本时,无论是最小二乘法还是逐步回归,都有其不足之处。它们一般都局限于最优解而不是全局最优解。Tib-shirani在1996年提出Lasso变量选择的算法,解决了数据降维的难题。Lasso方法是一种将高维数据进行压缩的方法,并且可以使参数估计与变量选择同时进行。Lasso方法剔除了相关性较小的变量,避免了这些变量的异常值对模型进行干扰,是近年来被各类学者广泛应用于参数估计和变量选择的方法之一。考虑到数据的形态特征,本文选择Lasso方法对影响在线短租服务的因素进行变量识别。定义如下: 2.决策树CART预测法.在Lasso变量选择法的基础上,继续采用决策树CART预测法对识别因素进行检验。这种检验方法是将影响因素用于预测,利用预测的准确性判断影响因素选择的合理性。具体操作时将影响因素用于在线短租的订单量预测,根据订单量预测效果判断所选择的因素。
决策树技术是数据分析中用于将一组样本分成若干类的数据挖掘方法。通过映射关于某个项目的观测值,预测项目的目标值的模型。首先选择被分类的原始数据,按照预先提供的分类规则进行每个类别的最佳分割。每个根节点都对应若干叶节点,当每个个体达到某片叶子所属规则的最大概率时,就会被分配给该叶子。然后在到达的新节点上执行相同的操作,直到进一步的分割不再可能或者合理,该个体就属于某个分类。
(二)数据来源
目前国内的在线短租平台有小猪短租、途家网、蚂蚁短租等。作为最受消费者喜爱的房源预订平台,小猪短租以房源量大、房东身份信息实名认证、平台管理规范闻名。所以,基于小猪平台的优势和数据可得性的特点,本文采集了该平台上每个房源从发布至2018年12月期间的房源数据。选择北京、上海、武汉、广州和成都5个城市的房源在线信息作为本研究的样本数据。主要从房客在线评价、房源属性、房东个体特征三个方面研究在线信息对在线短租服务的影响。
对于每个房东,从房东页面采集了在线回复率、平均确认时长、订单接受率以及是否为超棒房东等房东信息;对于每个房源,从房源页面采集了价格、房源类型(整套出租、单间出租)、押金等;在房客对房源的评价方面采集了点评数量和总评分,以及各项评分(整洁卫生、描述相符、交通位置、安全程度、性价比等)。用房源的累积订单量定量描述在线短租服务。在小猪短租平台上,大部分房东都同时拥有多个房源,为了区分开每一个房源的订单量,本文只研究拥有一个房源的房东和该房源的在线信息。所以,利用python爬虫工具从小猪短租网站上获取房东的订单量数据作为在线短租服务的评价指标,并筛选出单套房源的房源信息,去掉没有评分的房源信息,最终获得150条有效数据作为本文的研究样本。
四、实证分析
(一)变量特征分析
表1给出了房源订单量及全部采集的14个影响因素的数据特征。订单量的均值和标准差分别是84.23和78.59,说明每个房东所获得的房源预订量有很大的差别,最多的订单量达到了436个,最少的只有7个。这与房东发布房源的时间有关,也和房源的吸引度有关。而房屋类型、总评分、整洁卫生评分、描述相符评分、交通位置评分、安全程度评分、性价比评分和是否为超棒房东等指标的标准差却比较小,由此也可以说明在线短租的房源给房客住宿体验差别不是特别大。但相比较而言,住宿的押金、价格、点评数的标准差却非常大,这主要是因为在线短租是一种非标准化的住宿,房東对房源的押金和价格的决定上有很大的自主权,这就使得样本之间出现了较大的差异。
(二)决定因素的识别
影响房源订单量的因素有很多,为了识别主要的影响因素。本研究运用Lasso方法进行变量选择,被识别的变量分别是:在线回复率、平均确认时长、订单的接受率、押金、价格、点评数、交通位置评分和是否为超棒房东,具体见表2。剔除了房间类型、总评分、整洁卫生评分、描述相符评分、安全程度评分和性价比评分这六个变量,因为这几个变量之间存在多重共线性并且对因变量的贡献度比较小。
从表2的Lasso回归系数来看,影响系数较大的有订单的接受率、点评数、交通位置和是否为超棒房东四个变量,说明共享住宿用户在选择房源时更关注这些因素。房东对订单的接受率越大,订单量越多。每一个房源只要产生订单就会有房客信息,房客对房源的点评数量会影响潜在用户的选择,根据消费者的心理特征,点评数量越多说明越多人入住过该房源,也就能吸引越来越多的潜在用户。这种现象不仅在共享住宿中有,在很多的线上销售平台上也很常见。交通位置对订单量也是有正向显著的作用,当其他因素不影响订单量时,交通位置评分每增加一个单位,房源会平均增加4.43个订单量,这说明消费者很关注房源的地理位置。在影响订单量这8个变量中,是否为超棒房东这个变量影响最显著。而是否为超棒房东是小猪短租平台根据房东个人的信用度以及房客对房源的各项评分和评价进行综合判断的。根据小猪平台上对超棒房东的认定标准,房源提供者被评为超棒房东需要满足的要求有六点:一是身份真实可信,二是房源验真实拍,三是快速回复接单,四是接待经验丰富,五是好评获得率高,六是乐于待客之道。此外,在线回复率和价格也是影响房源订单量的因素。平均确认时间和押金对订单量的影响为负,这说明确认订单的时间会影响消费者的选择,如果房东迟迟没有确认订单就会错失重要的顾客,订单量就会越来越少。
(三)决定性因素的检验
1.预测模型的建立.根据变量识别的Lasso回归结果,选择以上八个显著影响因子作为决策树预测模型的输入变量,对短租的订单量进行预测。在建立Lasso-CART预测模型过程中,将房源数据的150个样本按照7:3的比例随机分成训练集和测试集。对训练集建立CART决策树模型,每个训练样本经过若干节点的判断后最终被分配到所属的类别。根据决策树修剪的规则,影响因子有较大的贡献率才会成为决策树的节点。通过调整每个节点中包含的最小样本数,使错误率尽可能小。最终,将调整参数后的模型进行对比,当只有订单的接受率、价格、点评数、交通位置和是否为超棒房东成为决策树的节点时,错误率是最小的。用该模型进行预测,训练集预测的结果和真实值的拟合情况如图1所示,从图中可以看出,Lasso-CART模型的拟合效果理想,拟合优度系数R2为89%,预测值能够很好的反映订单量的真实情况。
2.预测模型的检验,为了更好的检验Lasso-CART决策树模型的预测效果,将Lasso-CART决策树模型和Lasso-SVM支持向量机、Lasso-线性回归模型做比较研究。如图2所示,Lasso-CART决策树模型在测试样本中预测值和真实值之间相差最小。对比表3中三种组合模型的预测精度,Lasso-CART预测模型的均方根误差、绝对误差和相对误差都达到最小。从模型本身来说,SVM算法在分类预测应用中,更适合对分类目标变量进行预测,对数值型目标变量进行预测时的误差较大。而线性回归模型在对大样本数据进行预测时,显著地削弱了样本中的极大值和极小值的作用,所以真实值和预测值的拟合程度明显不高。而Lasso-CART决策树模型在处理大样本数据时,能够对连续型目标变量进行精准的预测,具有可靠性高、适用性强的特点,这些都是另外两种模型无法实现的。通过比较三种组合模型的预测效果,说明Lasso-CART决策树模型是检验在线短租服务决定性因素的最优模型。
3.Lasso-CART决策树模型的评价,从决策树算法的角度分析,CART算法的回归预测跟分类预测有本质的区别。分类预测决策树可以准确预测预测值是否等同于真实值,同时分类回归树CART算法基于非参数的识别技术,能够处理大样本数据信息,同时对连续型解释变量和离散型解释变量进行识别,利用最大概率分类原则和最小GINI系数测试属性原则极大地提高了模型的准确率,充分利用样本数据的信息,减少错误分类的成本。而对于回归预测来说,预测值只能近似地分布在真实值的附近,这也是预测连续目标变量存在的缺陷。综合考虑各种因素,Lasso-CART决策树模型能够将房源订单量的预测最大可能地和真实值拟合,从整体上看,大部分的订单量预测值可以接近真实值。
因而,从在线订单量预测效果判断,Lasso-CART决策树模型决定的因素就是在线短租共享服务的决定性因素。通过变量识别和预测检验获知:订单的接受率、价格、点评数、交通位置和是否为超棒房东这五个变量是在线短租服务的决定性影响因素。
五、研究结论与建议
理论上分析,影响在线短租服务的原因有很多,房东的个人属性、房源的质量和平台的管理都是影响消费者是否下单的决定性因素。但综合Lasso选取变量和决策树对订单量的预测结果发现:订单的接受率、价格、点评数、交通位置和是否为超棒房东这五个变量才是在线短租决定性影响因素。从表2中的Lasso回归系数可以看到,对在线短租的订单量产生正向显著影响的因素还有在线回复率以及其有负向显著作用的平均确认时间和押金,这些因素同样发挥着一定影响力。
从这些因素的性质可以发现,在线短租服务的发展依赖于消费者、房东和短租平台的共同影响,信息对称是在线短租服务的生命线。为此,必须建立良好的信任机制,完善消费者个人的信用机制体系,增加房东与房客之间的信任度。是否为超棒房东是影响在线短租服务订单量最显著的变量,说明平台需要加强对房东的管理,加强对房东个人页面的管理,完善房东个人信息,制定相应的奖惩机制规范房东的经营模式。同时,房东要提高对消费者的服务水平,认真对待每一个房源订单,提高订单的接受率和在线回复率,提高房东的房源预定量,促进在线短租共享模式良性发展。
关键词:在线短租 决定因素 Lasso变量选择 决策树CART算法
一、引言
近年来,互联网消费带动了共享经济的繁荣发展。2010年,由互联网搭建双边市场交易平台,在线短租业务在中国兴起,它是中国住宅租赁市场出现的一种以房屋共享租赁为特征的新型经济模式。虽然在线短租业务在中国发展时间不长,但行业增长迅速。据iiMedia Research(艾媒咨询)权威发布《2018-2019中国在线租房行业专题报告》数据显示,2018年中国在线短租市场交易额达178.08亿元,用户规模达1.47亿人,同比增长83%,预计2020年用户规模将达到3亿人,在线短租市场的持续升温,为中国住宅租赁行业创造了新的经济增长点。
但与此同时,数据也显示,在线短租用户规模的增长率已经从2017年的103%下降至2018年的83%,预计到2020年,用户增长率将降至30.6%,中国在线短租行业规模的增长率逐年下降,表明用户对短租市场房屋共享需求发生了转移,那么,是什么因素影响了用户对在线短租的需求呢?
在线短租共享租房追求以人为本和可持续发展的经济发展目标,在满足消费者多样化需求的同时,以低成本、高效率匹配的方式达到了空余房源的合理利用和用户最佳体验的目的。与传统租赁相比,在线短租满足各类人群的不同租房需求,实现了房源的供需双方快速匹配与交易。因此,在线短租的交易过程,供需双方信息显露在平台上,特别是用户在体验了短租服务后会将自己的体验信息公布于平台用户栏中,这些信息对引导新的用户选择房源与房东具有很强的导向性。如何运用数据挖掘方法挖掘这些信息,甄别在线短租共享服务的决定性影响因素,不仅能够回答在线短租服务用户需求诉求状况,对指导在线短租行业稳定持续发展也具有重要意义。
本文通过Lasso变量识别和决策树CART算法,甄别在线短租共享服务的决定性影响因素。研究特色在于:(1)基于在线短租服务信息相对对称的特征,利用python挖掘在线数据,利用在线数据信息抓取数据共同特征,遵循了大数据数字信息经济的研究范式;(2)采用Lasso变量识别的方法识别变量,并配备决策树算法进一步验证,在研究方法上体现了大数据研究方法的功能。
二、文献综述
在线短租是房屋的承租人通过互联网或移动互联网的方式查询及预订短租住房,与房屋的所有者或经营者通过线上平台形成租赁关系。互联网技术的进步促使了新的经济模式的产生,共享经济带来了住房的共享消费。相较于传统租赁,共享租房降低了失业率,增加了家庭收入。虽然在不同的研究领域,在线短租的定义能够达到一致性。但是,在线短租的研究侧重点比较分散,学者们从不同的层面分别给出了不同的研究结论,主要表现在两个方面:(1)在线短租的影响因素。影响因素研究主要集中在在线短租的消费动机、消费信任、购买意愿、房源价格等方面。传统住宿业的消费者选择酒店住宿服务的主要动机只包含了“价格、住宿设施和位置”,而在线短租的使用者在选择住宿时有其特殊的需求,即“居家性、社交性和原真性”三大动机。基于消费者信任的角度考虑,在线度假租赁通过个性化的服务将游客和业主联系起来。马磐昊基于信任理论从房东属性和信誉的角度研究了信任对房源销量的影响,并强调了信任建立对在线短租发展的重要性。在逐渐替代传统酒店住宿的发展趋势中,在线短租服务的信息对称性也在潜移默化地改变消费者的购买意愿和决策。由于网络消费的公开透明性,评论信息是影响消费者决策的重要因素,总体评分和房源价格对用户的购买意愿影响显著。反过来,价格也能影响消费者的决策。除此之外,房源价格与短租消费者的家庭可支配收入、年龄、好评率的关注度、对用户评价的关注度等具有较强的相关性。(2)在线短租的影响因素的分析方法。从使用的研究方法来看,传统的统计分析方法和数据挖掘法是研究在线短租影响因素常用的方法。赵建欣通过相关分析和回归分析得出中国地区和美国地区购买意图是基于不同因素的影响。张广宇和叶作亮通過建立线性回归模型分析了酒店特征信息、顾客评论信息和预订平台信息对酒店在线预订的影响。基于负二项面板回归模型,房东属性对在线短租房源订单增量有显著影响,并且该模型具有一定的鲁棒性。王佳园和徐薛艳通过建立服务质量评价的指标体系将网络文本分析应用于在线短租的影响研究,强调要提高在线短租服务质量的重要性。
在线短租的特征是供需双方的信息披露过程,但综述现有研究成果发现,大部分学者在考察在线短租的影响因素时要么立足于用户,要么立足于房东,这种单视角分析使在线短租信息披露得不到完整的体现。另外,在分析方法上,采用回归分析通过事先预设影响因素可能会使得一些重要因素排除在研究范围外而得不到体现。本文根据在线短租平台上披露的信息,运用Lasso选择变量的方法对各项指标进行变量识别,并利用决策树CART预测算法加以验证。相较已有研究,本文最大的特色在于:在遵循大数据的研究规律与研究方法基础上去实现甄别在线短租共享服务的影响因素研究。
三、研究方法与数据来源
(一)研究方法
对数据变量进行降维和决定性影响因素的选取有很多种方法可以选择,本文在对在线短租的数据特征和数据挖掘方法的研究基础上,决定使用Lasso选取变量的方法和分类回归树CART算法结合的方式来研究在线短租服务的影响因素。
1.Lasso变量选择法.在以往的文献中,经常采用普通最小二乘法对在线消费的影响因素进行实证研究,建立回归模型并进行假设检验,对解释变量的选取采用的则是逐步回归。然而,在处理高维度大数据样本时,无论是最小二乘法还是逐步回归,都有其不足之处。它们一般都局限于最优解而不是全局最优解。Tib-shirani在1996年提出Lasso变量选择的算法,解决了数据降维的难题。Lasso方法是一种将高维数据进行压缩的方法,并且可以使参数估计与变量选择同时进行。Lasso方法剔除了相关性较小的变量,避免了这些变量的异常值对模型进行干扰,是近年来被各类学者广泛应用于参数估计和变量选择的方法之一。考虑到数据的形态特征,本文选择Lasso方法对影响在线短租服务的因素进行变量识别。定义如下: 2.决策树CART预测法.在Lasso变量选择法的基础上,继续采用决策树CART预测法对识别因素进行检验。这种检验方法是将影响因素用于预测,利用预测的准确性判断影响因素选择的合理性。具体操作时将影响因素用于在线短租的订单量预测,根据订单量预测效果判断所选择的因素。
决策树技术是数据分析中用于将一组样本分成若干类的数据挖掘方法。通过映射关于某个项目的观测值,预测项目的目标值的模型。首先选择被分类的原始数据,按照预先提供的分类规则进行每个类别的最佳分割。每个根节点都对应若干叶节点,当每个个体达到某片叶子所属规则的最大概率时,就会被分配给该叶子。然后在到达的新节点上执行相同的操作,直到进一步的分割不再可能或者合理,该个体就属于某个分类。
(二)数据来源
目前国内的在线短租平台有小猪短租、途家网、蚂蚁短租等。作为最受消费者喜爱的房源预订平台,小猪短租以房源量大、房东身份信息实名认证、平台管理规范闻名。所以,基于小猪平台的优势和数据可得性的特点,本文采集了该平台上每个房源从发布至2018年12月期间的房源数据。选择北京、上海、武汉、广州和成都5个城市的房源在线信息作为本研究的样本数据。主要从房客在线评价、房源属性、房东个体特征三个方面研究在线信息对在线短租服务的影响。
对于每个房东,从房东页面采集了在线回复率、平均确认时长、订单接受率以及是否为超棒房东等房东信息;对于每个房源,从房源页面采集了价格、房源类型(整套出租、单间出租)、押金等;在房客对房源的评价方面采集了点评数量和总评分,以及各项评分(整洁卫生、描述相符、交通位置、安全程度、性价比等)。用房源的累积订单量定量描述在线短租服务。在小猪短租平台上,大部分房东都同时拥有多个房源,为了区分开每一个房源的订单量,本文只研究拥有一个房源的房东和该房源的在线信息。所以,利用python爬虫工具从小猪短租网站上获取房东的订单量数据作为在线短租服务的评价指标,并筛选出单套房源的房源信息,去掉没有评分的房源信息,最终获得150条有效数据作为本文的研究样本。
四、实证分析
(一)变量特征分析
表1给出了房源订单量及全部采集的14个影响因素的数据特征。订单量的均值和标准差分别是84.23和78.59,说明每个房东所获得的房源预订量有很大的差别,最多的订单量达到了436个,最少的只有7个。这与房东发布房源的时间有关,也和房源的吸引度有关。而房屋类型、总评分、整洁卫生评分、描述相符评分、交通位置评分、安全程度评分、性价比评分和是否为超棒房东等指标的标准差却比较小,由此也可以说明在线短租的房源给房客住宿体验差别不是特别大。但相比较而言,住宿的押金、价格、点评数的标准差却非常大,这主要是因为在线短租是一种非标准化的住宿,房東对房源的押金和价格的决定上有很大的自主权,这就使得样本之间出现了较大的差异。
(二)决定因素的识别
影响房源订单量的因素有很多,为了识别主要的影响因素。本研究运用Lasso方法进行变量选择,被识别的变量分别是:在线回复率、平均确认时长、订单的接受率、押金、价格、点评数、交通位置评分和是否为超棒房东,具体见表2。剔除了房间类型、总评分、整洁卫生评分、描述相符评分、安全程度评分和性价比评分这六个变量,因为这几个变量之间存在多重共线性并且对因变量的贡献度比较小。
从表2的Lasso回归系数来看,影响系数较大的有订单的接受率、点评数、交通位置和是否为超棒房东四个变量,说明共享住宿用户在选择房源时更关注这些因素。房东对订单的接受率越大,订单量越多。每一个房源只要产生订单就会有房客信息,房客对房源的点评数量会影响潜在用户的选择,根据消费者的心理特征,点评数量越多说明越多人入住过该房源,也就能吸引越来越多的潜在用户。这种现象不仅在共享住宿中有,在很多的线上销售平台上也很常见。交通位置对订单量也是有正向显著的作用,当其他因素不影响订单量时,交通位置评分每增加一个单位,房源会平均增加4.43个订单量,这说明消费者很关注房源的地理位置。在影响订单量这8个变量中,是否为超棒房东这个变量影响最显著。而是否为超棒房东是小猪短租平台根据房东个人的信用度以及房客对房源的各项评分和评价进行综合判断的。根据小猪平台上对超棒房东的认定标准,房源提供者被评为超棒房东需要满足的要求有六点:一是身份真实可信,二是房源验真实拍,三是快速回复接单,四是接待经验丰富,五是好评获得率高,六是乐于待客之道。此外,在线回复率和价格也是影响房源订单量的因素。平均确认时间和押金对订单量的影响为负,这说明确认订单的时间会影响消费者的选择,如果房东迟迟没有确认订单就会错失重要的顾客,订单量就会越来越少。
(三)决定性因素的检验
1.预测模型的建立.根据变量识别的Lasso回归结果,选择以上八个显著影响因子作为决策树预测模型的输入变量,对短租的订单量进行预测。在建立Lasso-CART预测模型过程中,将房源数据的150个样本按照7:3的比例随机分成训练集和测试集。对训练集建立CART决策树模型,每个训练样本经过若干节点的判断后最终被分配到所属的类别。根据决策树修剪的规则,影响因子有较大的贡献率才会成为决策树的节点。通过调整每个节点中包含的最小样本数,使错误率尽可能小。最终,将调整参数后的模型进行对比,当只有订单的接受率、价格、点评数、交通位置和是否为超棒房东成为决策树的节点时,错误率是最小的。用该模型进行预测,训练集预测的结果和真实值的拟合情况如图1所示,从图中可以看出,Lasso-CART模型的拟合效果理想,拟合优度系数R2为89%,预测值能够很好的反映订单量的真实情况。
2.预测模型的检验,为了更好的检验Lasso-CART决策树模型的预测效果,将Lasso-CART决策树模型和Lasso-SVM支持向量机、Lasso-线性回归模型做比较研究。如图2所示,Lasso-CART决策树模型在测试样本中预测值和真实值之间相差最小。对比表3中三种组合模型的预测精度,Lasso-CART预测模型的均方根误差、绝对误差和相对误差都达到最小。从模型本身来说,SVM算法在分类预测应用中,更适合对分类目标变量进行预测,对数值型目标变量进行预测时的误差较大。而线性回归模型在对大样本数据进行预测时,显著地削弱了样本中的极大值和极小值的作用,所以真实值和预测值的拟合程度明显不高。而Lasso-CART决策树模型在处理大样本数据时,能够对连续型目标变量进行精准的预测,具有可靠性高、适用性强的特点,这些都是另外两种模型无法实现的。通过比较三种组合模型的预测效果,说明Lasso-CART决策树模型是检验在线短租服务决定性因素的最优模型。
3.Lasso-CART决策树模型的评价,从决策树算法的角度分析,CART算法的回归预测跟分类预测有本质的区别。分类预测决策树可以准确预测预测值是否等同于真实值,同时分类回归树CART算法基于非参数的识别技术,能够处理大样本数据信息,同时对连续型解释变量和离散型解释变量进行识别,利用最大概率分类原则和最小GINI系数测试属性原则极大地提高了模型的准确率,充分利用样本数据的信息,减少错误分类的成本。而对于回归预测来说,预测值只能近似地分布在真实值的附近,这也是预测连续目标变量存在的缺陷。综合考虑各种因素,Lasso-CART决策树模型能够将房源订单量的预测最大可能地和真实值拟合,从整体上看,大部分的订单量预测值可以接近真实值。
因而,从在线订单量预测效果判断,Lasso-CART决策树模型决定的因素就是在线短租共享服务的决定性因素。通过变量识别和预测检验获知:订单的接受率、价格、点评数、交通位置和是否为超棒房东这五个变量是在线短租服务的决定性影响因素。
五、研究结论与建议
理论上分析,影响在线短租服务的原因有很多,房东的个人属性、房源的质量和平台的管理都是影响消费者是否下单的决定性因素。但综合Lasso选取变量和决策树对订单量的预测结果发现:订单的接受率、价格、点评数、交通位置和是否为超棒房东这五个变量才是在线短租决定性影响因素。从表2中的Lasso回归系数可以看到,对在线短租的订单量产生正向显著影响的因素还有在线回复率以及其有负向显著作用的平均确认时间和押金,这些因素同样发挥着一定影响力。
从这些因素的性质可以发现,在线短租服务的发展依赖于消费者、房东和短租平台的共同影响,信息对称是在线短租服务的生命线。为此,必须建立良好的信任机制,完善消费者个人的信用机制体系,增加房东与房客之间的信任度。是否为超棒房东是影响在线短租服务订单量最显著的变量,说明平台需要加强对房东的管理,加强对房东个人页面的管理,完善房东个人信息,制定相应的奖惩机制规范房东的经营模式。同时,房东要提高对消费者的服务水平,认真对待每一个房源订单,提高订单的接受率和在线回复率,提高房东的房源预定量,促进在线短租共享模式良性发展。