论文部分内容阅读
随着我国城镇化进程的推进,商品房价格不断上涨,特别是“北上广深”这些一线城市的房价更是让人望而却步。为了解决住房问题,租房居住成为了越来越多人的选择。然而我国目前的住房市场以买卖为主,租赁市场还没得到协同发展,依然存在着很多问题。其中住房租赁市场供求关系失衡、房东与租客信息不对称、市场乱象居多等问题一直阻碍着租赁市场的发展。为了解决以上存在的问题,把控住房租赁市场的价格走向是关键,因而对住房租金进行合理的定价和预测就显得尤为重要。本文结合当前的大数据背景,提出运用机器学习模型来对住房租金进行分析预测,以期构造出预测效果较好的模型来供租赁市场参考。本文通过网络爬虫技术从链家网上获取了深圳市在2019年12月的真实租房数据。并对得到的原始数据进行数据清洗然后做可视化展示,从数据的描述性统计分析中直观的获得特征之间的关系以及影响租金的主要因素。为了更好的训练数据,本文接着进行数据变换,并通过特征选择得到了用于模型训练的12个特征。本文建立了支持向量回归(SVR)、随机森林和XGBoost模型对预处理后的数据进行预测分析。为了优化模型,提高预测准确率,本文选用网格搜索法分别对模型的重要参数进行调优,并以平均绝对百分比误差和决定系数作为评价模型性能优劣的指标。为了找出预测效果最优的模型,本文对比了所选用的三个机器学习模型在调参前后的评价指标结果,发现调参后XGBoost模型拥有最小的平均绝对百分比误差和最大的决定系数值。可见XGBoost可以更好的适应不平衡数据集,无论在真实租金较大还是较小的情况下均能更准确的做出预测。说明XGBoost模型具有更强的泛化性能,适用范围更广泛,因而在相较之下更适用于租赁市场对租金的预测。