基于LightGBM算法的北京市二手房估价模型研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:jonquil1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着北京房地产行业步入存量房时代,二手房正逐渐成为交易主体。北京市二手房市场的崛起,使二手房交易频率不断上升,二手房估价作为交易的关键环节而引起重视。精准估算北京市二手房价格对于降低交易风险、保障买卖双方利益、推动房地产健康稳定发展具有重要意义。目前二手房估价模型包括线性回归、神经网络等,但普遍存在计算效率低、预测准确度低等问题。因此,需要对北京市二手房的估价模型进行科学研究。本研究将特征价格理论作为理论支撑,构建基于Light GBM算法的北京市二手房估价模型,并利用网格搜索算法改进模型,旨在高效准确地估算北京市二手房的价格。本文基于网络爬虫技术合理采集北京市二手房数据,采用数据清洗技术删除重复和无关数据、处理异常值和缺失值,并运用数据转换技术完成字段添加和类别转换等操作,得到120772条完整的二手房数据。在传统特征价格理论的指导下,纳入时间特征,从区位、建筑、邻里和时间特征四个方面构建候选指标集。基于包装算法对输入数据进行特征选择,通过多次迭代删除无关和冗余变量,最终保留39个特征,得到最优特征集。基于Light GBM算法构建北京市二手房估价模型,并运用网格搜索算法改进模型,建立改进的Light GBM估价模型。为了验证估价模型的有效性,构建线性回归、BP神经网络、随机森林和XGBoost估价模型进行对比分析。最后,基于北京市二手房的数据,按照4:1随机划分数据集,通过十折交叉验证从决定系数、平均绝对误差、平均相对误差百分比等方面综合评估模型效果。通过对比分析可以发现,Light GBM估价模型以及改进的Light GBM估价模型的模型效果均优于四种对比估价模型,而且基于网格搜索算法改进的Light GBM估价模型的模型性能的预测精度更高,其决定系数为0.961,平均绝对误差为0.32,平均相对误差百分比为4.99%,是一种可以应用于解决北京市二手房估价问题的优秀模型。
其他文献
城市业主维权运动是伴随着住房市场化、商品化改革而出现的一种新的社会运动形式.维护房产权益、实行业主自治、策略性集体行动的广泛采用、维权精英的积极引导和专业人士的
李春雷创作的报告文学在语言上有着诗歌的风格与特点.注重语言的跳跃性,营造有韵味的诗意“空白”;同时讲究语言富有节奏韵律之美;为传达细腻、幽微的感觉,作者大力借鉴诗歌
目的探讨儿童支原体肺炎(MPP)的临床特点及治疗方法。方法对60例确诊为支原体肺炎的患儿临床特点进行回顾性分析。结果发病多集中在学龄儿童,7~12岁占65.00%。发热47例(78.33%),
20世纪90年代的俄罗斯文学呈现出多元化、边缘化、市场化的特点.新的趋势是俄罗斯作家的媒体化、文学作品的网络化和文学语言的晦涩化.这一时期文学的3个热点板块是新侨民文
本文在阐述推进高校办公室管理必要性的基础上,从宏观和微观视角提出高校办公室管理中存在的问题,并在此基础上有针对性地分析了推进高校办公室管理的对策。
西方国家银行全能化发展说明金融混业经营的供需因素变化,使银行有了扩张经营规模和范围的可能.目前,由于多重制度约束的存在,我国银行只适宜在边界的限制内推进金融机构工具
本文运用灰色理论的优势分析,多元回归理论和运动能力理论,对我国女子优秀掷标枪运动员张丽的素质,成绩预测模型及运动能力进行量化研究分析。研究表明:要提高张丽的掷标枪的运动
四旋翼无人机具有尺寸小、机械结构简单、运动自由等优点,已被广泛用于街景影视拍摄、监控巡察、电力巡检、环境监测、农业保险、快递配送等领域。四旋翼无人机吸引了许多学
<正> 陶渊明《桃花源记》流传几千年,人们百读不厌。鸦片战后,我们才发现它和古希腊哲人柏拉图的“理想国”,近代英国政治家莫尔的“乌托邦”何其相似!在人文科学观念迅速更新