论文部分内容阅读
随着移动互联网等多种新技术的飞速创新发展以及共享经济思想的不断渗透,以移动互联网终端为内容媒介、整合大量闲置房源的共享住宿行业得到迅速发展。相比较于传统的公寓酒店行业,共享住宿平台上房源的相对独特性以及房东的明显异质性使得房东难以对自身房屋的价格作出合理估计,以往大多是类比酒店行业的定价去研究共享住宿行业的定价问题,采用传统的线性回归模型进行共享住宿日租价格的预测。而随着计算机算力的不断提升和机器学习理论的逐步完善,预测精度高的机器学习算法被广泛用于学术界和工业界中,这无疑也为更加合理且准确高效地预测共享住宿房源日租价格提供了一个新的思路。本文在广泛翻阅共享住宿领域相关理论研究的基础之上,综合国内外研究成果重点总结了共享住宿日租价格的影响因素,将共享住宿日租价格的影响因素划分为房源特征、房东特征、区位特征、租赁特征和评价特征五大类,其中房东特征是共享住宿行业相较于传统酒店所特有的属性。在对共享住宿日租价格影响因素进行梳理总结之后,本文以Airbnb共享住宿平台的北京市房源数据为样本进行了共享住宿日租价格预测的实证研究。在价格预测算法模型的选择问题上,由于树集成模型算法近年来在机器学习的回归预测领域中被应用得最为广泛且模型效果比较优异,加之树集成模型可以输出特征重要性的排序结果,具有解释不同特征变量对预测变量影响程度大小的优势,本文在Python语言环境下采用树集成模型算法中目前最具典型代表性特征的随机森林回归模型、XGBoost回归模型、LightGBM回归模型构建共享住宿日租价格的单一预测模型。为优化提升单一模型的预测能力和应用效果,本文在将原始的数据集划分成训练数据集和测试数据集的基础之上,使用十折交叉验证的方法将原始训练集进一步划分为训练集和验证集,通过比较使用不同参数组合的模型在验证集上的预测结果同目标变量观测值之间的平均均方误差值的大小来进行模型的最优参数组合选择,以此达到提高单一模型的预测精度和泛化能力的目的。鉴于融合模型通常比单一模型预测精度和泛化能力要强,我们将调参优化后的三个单一模型进行简单加权融合以及Stacking融合,以期能进一步合理准确的预测共享住宿日租价格。本文所采用的模型评价指标为均方误差(MSE)和判定系数(R2),以衡量不同算法模型在训练集上的拟合效果以及在测试集上的预测能力。实证研究结果表明,三个单一模型在共享住宿日租价格预测上都表现不错且相差不大,其中随机森林算法在训练集上拟合效果最好,XGBoost算法在测试集上预测效果最好。三个单一算法进行融合后的算法模型在训练集和测试集上的表现都要优于单一算法模型,且Stacking融合模型要优于简单加权融合模型。这说明本文所采用的单一算法模型以及融合算法模型都能合理准确的预测共享住宿日租价格,提出的模型融合策略也能从预测准确度和泛化能力两方面提升算法的性能。综合三个单一模型输出的特征重要性排序结果,本文得出的共享住宿日租价格的主要影响因素为房源特征中的“卧室数”、“浴室数”、“床数”、“房源建筑类型”、“容纳数”,房东特征中的“房东拥有的房源数”、“房东的回复时间”、“房东的资历”,区位特征中的“距市中心的距离”、“是否有景点优势”,租赁特征中的“是否是整套房子/公寓出租”、“是否是共享房间出租”、“是否是单个房间出租”以及评价特征中的“近12个月评论数”、“评分”。本文的研究为相关机构及学者研究共享住宿定价问题提供了新的参考思路,丰富了树集成模型算法的应用领域,同时为共享住宿平台及房东自身的经营模式和定价策略提供了可借鉴的标准,有利于共享住宿行业的标准化建设和长远发展。