论文部分内容阅读
随着北京房地产行业步入存量房时代,二手房正逐渐成为交易主体。北京市二手房市场的崛起,使二手房交易频率不断上升,二手房估价作为交易的关键环节而引起重视。精准估算北京市二手房价格对于降低交易风险、保障买卖双方利益、推动房地产健康稳定发展具有重要意义。目前二手房估价模型包括线性回归、神经网络等,但普遍存在计算效率低、预测准确度低等问题。因此,需要对北京市二手房的估价模型进行科学研究。本研究将特征价格理论作为理论支撑,构建基于Light GBM算法的北京市二手房估价模型,并利用网格搜索算法改进模型,旨在高效准确地估算北京市二手房的价格。本文基于网络爬虫技术合理采集北京市二手房数据,采用数据清洗技术删除重复和无关数据、处理异常值和缺失值,并运用数据转换技术完成字段添加和类别转换等操作,得到120772条完整的二手房数据。在传统特征价格理论的指导下,纳入时间特征,从区位、建筑、邻里和时间特征四个方面构建候选指标集。基于包装算法对输入数据进行特征选择,通过多次迭代删除无关和冗余变量,最终保留39个特征,得到最优特征集。基于Light GBM算法构建北京市二手房估价模型,并运用网格搜索算法改进模型,建立改进的Light GBM估价模型。为了验证估价模型的有效性,构建线性回归、BP神经网络、随机森林和XGBoost估价模型进行对比分析。最后,基于北京市二手房的数据,按照4:1随机划分数据集,通过十折交叉验证从决定系数、平均绝对误差、平均相对误差百分比等方面综合评估模型效果。通过对比分析可以发现,Light GBM估价模型以及改进的Light GBM估价模型的模型效果均优于四种对比估价模型,而且基于网格搜索算法改进的Light GBM估价模型的模型性能的预测精度更高,其决定系数为0.961,平均绝对误差为0.32,平均相对误差百分比为4.99%,是一种可以应用于解决北京市二手房估价问题的优秀模型。