基于机器学习的住房租金预测及效果评价——以杭州市为例

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:zhuzhihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济社会发展,居民收入增加,生活水平提升的同时,全国商品房价格也一直处于增长状态,并带动了住房租赁市场租金的增长。尤其是在一线和新一线城市,住房租赁市场规模增长迅速,但也存在很多问题亟待解决,如供求关系失衡导致住房租赁供不应求、租客和房东之间存在信息不对称导致租客在住房租金上蒙受损失、大量存在的房产中介使租房过程更加的不透明。为解决存在的问题,建立合理的住房租赁租金价格标准是关键,当下机器学习技术的发展为解决该问题提供了契机。本文尝试通过大数据采集和机器学习模型基于真实的杭州市住房租金数据建立租金预测模型,希望能够对住房租赁市场租金价格提供合理预测,以供参考。本文研究内容包括三个部分:第一部分杭州市住房及租金相关数据获取。一是通过网络爬虫采集了链家网杭州市租房板块2021年8月份在租的房源信息;二是根据房源信息获取了其所在小区的相关信息;三是利用高德地图提供的API接口采集了杭州市各类基础设施信息,使用经纬度坐标换算方法匹配了各房源周边2KM内的基础设施数量;四是通过杭州市统计年鉴补充了杭州市各行政区域人口构成、就业情况、经济发展水平等数据,形成了完整全面的杭州市住房租金多维度数据集。第二部分对不同来源数据进行清洗和变换,整理成满足后续建模使用的数据集。本文使用特征组合方法构建了49个新特征,采用基于树模型特征重要性选择方法筛选出可用于后续建模的特征共136个。第三部分优化预测模型并结合不同维度数据集比较模型的优劣。对前述收集到的32278条真实房源租赁数据按照8:2的比例划分训练集和测试集后,分别训练多元线性回归模型、随机森林模型和XGBoost模型,并对训练结果进行了评价比较。对随机森林和XGBoost模型中的训练参数进行调整以提高预测精度,并比较了杭州市住房租金不同维度数据特征对最终预测效果的影响。本文得到的结论主要有:(1)不同的预测模型具有不同预测精度。在本文数据集和应用场景下,XGBoost模型凭借其更强的泛化能力和适用面,对杭州市住房租金的预测效果更好,其预测准确度为93.04%,平均预测误差为307元,且参数优化后的XGBoost模型预测准确率提升了4.13个百分点,提升比率达4.65%,平均预测误差下降比率达35.77%。(2)不同维度的数据集影响预测精度。通过建模预测发现,相比单独使用房源数据作为数据集,在完整数据集上优化后的XGBoost模型平均绝对误差减小了276元,预测准确率提高了6.44个百分点,随机森林模型平均绝对误差减小355元,预测准确率提高了8.19个百分点,表明从多维度构建的数据集特征能够有效提高杭州市租房租金预测的精度。
其他文献
当前,数字经济在全球范围内迅猛发展,在新冠疫情依旧肆虐的当下,以数据为基础的数字经济推动着各方经济持续向好发展,而我国目前面临比较大的经济下行压力,数字经济通过与传统产业相融合的方式,促进着传统产业的变革完善,与此同时对生产效率的提升也起到了积极的促进作用,又由于数字经济属于绿色经济,其发展能够进一步的改善环境,从而减少污染物的排放,从而提升我国全要素生产率,促进我国经济健康持续高质量发展。而我国
学位
创新是国家持续发展的核心动力,是提升大国核心竞争力的关键所在。近年来,中国创新投入不断增加,科技实力进步显著,但受制于融资约束与信息不对称,我国中小微企业的创新活力总体不足,创新成效不甚理想。金融科技催生出新型金融服务模式,扩大了信贷服务覆盖面,对促进我国中小企业融资,改善我国创新环境具有重要作用。厘清金融科技背后的发展逻辑,探究其对企业创新的影响路径,这关乎企业未来,关系到我国金融行业的健康发展
学位
汽车现在是生活中必不可少的交通工具,可以说汽车已经深入到生活中的每一个角落,并推动着社会经济的发展。然而由于能源的日益损耗及对大自然的日益污染,地球面临的挑战与日俱增,截至2020年6月,我国的汽车保有量已达到2.7亿辆,给生态环境带来了巨大压力。而近几年低碳环保的新能源汽车正在慢慢的改变这个时代,国家的提倡与支持,各大小企业的节能减排要求,都在促进新能源汽车的飞快发展。一般情况下,通过传统的车辆
学位
空气是人们赖以生存和发展的不可缺少的环境要素之一,清洁干净的大气环境有益于人们的身体健康。治理空气污染,让蓝天白云常驻,是群众所盼、民生所系。城市是空气污染的重灾区,也是空气治理工作中的重难点,“十四五”规划将城市空气质量列为经济社会发展约束性指标,影响着整个城市的综合竞争力,足以体现城市空气质量的重要性。如今大气污染防治进入深水区,制定措施更要保证科学化、精准化,降低治理成本,提升治理质量。因此
学位
伴随着互联网领域技术不断的进步革新,各种互联网应用出现在人们的生活中,并逐渐变得不可缺少。而互联网广告依托互联网应用这个载体也就此诞生。能否精准地了解用户喜好并预测互联网广告的点击率成为了当前研究的热点之一。广告点击率通常是预测用户点击某条广告的概率。广告技术中最重要的算法之一就是通过对广告点击率的预测进而找出用户最有可能点击的那条广告。广告点击率关系着广告的排序以及相应的点击付费等方面内容,因此
学位
近年来随着各个城市基础设施的不断完善,地铁的建设和完善一直保持着增长的趋势并且地铁覆盖整个城市的各个地方。地铁周围新起的居民区、工业区、娱乐设施等更方便城市居民的出行,人们也可以通过搭乘地铁达到享受城市的便捷服务的目的。除此之外,地铁本身的准时性、便利性和安全性,使得地铁逐渐成为人们交通出行首选的工具。但地铁本身空间比较狭小,若遇上紧急情况很有可能因为客流量过于庞大而不好管理,严重的可能会导致交通
学位
2019年末新型冠状病毒的出现给人们的生命财产带来极大影响,在新冠疫情长期存在的背景下,新冠病毒疫苗的研制和上市成为战胜疫情的关键。只有全民接种疫苗形成群体免疫,才能有效抑制新冠病毒传播。在新冠病毒疫苗研制和接种过程中,新冠病毒疫苗的未知性,新冠疫情爆发的反复性,接种周期的长期性以及社交媒体传播信息的快速性,使得新冠病毒疫苗舆情变得更加复杂。新冠病毒疫苗作为普惠民众的公共卫生产品,需要政府及时干预
学位
国家科技创新能力的提高,离不开高校、科研院所与企业的投入和科研人员的辛苦付出,然而更需要合理的、积极的科技创新政策引导。因此,系统地梳理近十年我国科技创新政策的主题演化过程,运用文本挖掘、深度学习等大数据技术分析、评价现有的科技创新政策,提出改进建议。这是我们目前亟需完成的任务。把“科技创新”作为关键词在中国法律检索系统与中国政府网进行检索。对筛选后的政策分别按照时期与年份分类汇总。研究期内,我国
学位
2020年心冠肺炎疫情爆发之时,以在线直播互动式教学为特点的网课迅速普及。网课形式下会出现大量的交互记录,这些信息是在校上课过程中所无法存储的,这些数据也会带来一定的价值。提升教学质量是教育的一个重要目标,但是如何提升确是一个难题。老师和学生之间的交互会带来更好的教学质量,因此本文选择中国慕课平台上数学、计算机、外语三类课程的数据,重点挖掘学生对当前网课的一些负面评价的核心观点,并对不同类别课程的
学位
中小企业是推动我国经济发展的根本所在,同时也是提高我国就业质量和科技创新水平的重要支柱。然而长期以来,因为市场信息的不对称、中小企业自我运营管理状况和宏观经济制度环境变化等多种原因,中国中小企业普遍存在着融资过难、融资效益低下等困难,这些困难也是中小企业发展与经济社会可持续发展的主要障碍。因此探究解决中小企业融资难、贷款难并最大幅度地提高融资效率是十分有必要的,具有极大的理论意义和实际价值。数字普
学位