论文部分内容阅读
房地产业是我国国民经济的重要支柱产业,其中房价是最为关键和核心的要素。传统的预测手段难以实现对房地产价格的准确预测,如何挖掘市场信息,构建更为有效的指标和模型来提高预测精度,成为亟需解决的问题。大数据的快速发展,机器学习和自然语言处理技术的逐渐成熟,使得基于网络搜索数据对房地产价格等进行分析成为可能,可以弥补传统的预测模型构建中指标选择的主观性,得到更为全面、丰富的影响因子,从而能够更好地反映房价的形成机制,提高预测的准确度。本文在梳理已有研究成果的基础上,分析了房地产市场中房地产开发商和购房者的微观行为,在面对市场竞争和宏观调控时,作为需求方和供给方,两者都存在心理预期形成的过程,会在经济决策前进行网络搜索得到相关信息进而做出投资或者消费的判断。随着互联网全方位地渗透到人们的日常生活中,人们在获取信息时更多地由传统渠道向信息化渠道发展,互联网搜索数据的变化趋势直接反映了市场需求和供给的变动,并最终体现在商品的市场价格上。宏观经济因素影响房地产的供求关系,房地产的供求关系决定价格。由于参与方的行为作用到价格上的变化是滞后的,但反映在互联网搜索数据中的变化却是即时的。因此,本文将网络搜索引入到房地产市场中,建立并分析百度指数和房地产价格的先行——滞后关系。基于上述背景,本文以房地产价格为研究对象,综合确定与房地产价格相关的网络搜索关键词,选取其对应的百度指数并进行筛选和检验,在此基础上利用K折交叉检验法,通过机器学习算法,构建基于网络搜索的房价预测模型。进一步,本文基于上海市2011年1月至2017年12月的房价数据进行实证分析,分别建立线性回归模型、随机森林和弹性网络算法进行求解和比较。研究结论表明:首先,信息化时代下,越来越多的市场参与者通过互联网进行信息检索,互联网的搜索浏览痕迹也反映了人们的经济活动意向和动态。影响房地产市场供求关系的因素可以在网络搜索关键词上得到对应的体现,两者之间存在相关性。其次,加入网络搜索指数的房价预测模型对房地产价格的拟合和预测效果都基本令人满意,实现了对于房价的实时监测。其中,随机森林模型的均方误差(MSE)最小,拟合和预测的效果最好。最后,和已有文献资料进行比较,发现拓宽关键词的范围,增加学术关键词,对于拟合和预测的精度有了一定程度的提高。本文基于网络搜索的房价预测方法弥补了传统统计数据信息发布相对滞后的局限性,较好地解决了房地产市场价格预测的时效性问题,丰富了房价预测的方法体系。本文的预测框架同样适用于其他社会经济指标,成本低且具有可操作性,具有很好的理论和现实意义。