论文部分内容阅读
摘 要:2017 年 4 月,北京被爆东城区的某一学区房被卖到 25 万一平米的天价,“学区房”在此成为民众热议的话题。在人们的印象中,交通便利也是选择住房的一个重要条件,那么临近地铁站这一特点是否会提升住房本身的价值?这些问题都值得我们去探究。本文利用网易数据中心“2014-2016年北京二手房交易信息”数据,整理出与住房的地理位置(控制行政区,探索地铁、小区和学校等外部因素)相关的变量,利用时间序列分析、主成分分析、建立 Copula 函数、稳定检验分析相关性、回归模型等方法,研究北京二手房房价的影响因素。
关键词:房价;Copula;主成分
一、回归分析
研究房价的影响因素,最简单直接的方法就是先建立线性回归模型,运用
OLS的回归估计方法,对待估参数进行估计,根据系数的显著性来判断影响。回归建模结果如下:
Call:
lm(formula =Compprice ~CompDis + Compsubway + Compschool + CompLAT + CompLONG)
Residuals:
Min 1Q Median 3Q Max
-58460 -10162 -1137 8679 167198
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15420 on 16789 degrees of freedom Multiple R-squared: 0.543, Adjusted R-squared: 0.5429 F-statistic: 3990 on 5 and 16789 DF, p-value: < 2.2e-16
显然,行政区域、地铁站以及学区都对房价有显著的影响,这都符合我们的直觉。其中,subway 的系数高达 6637.37,也就是说,在其他条件不变的情况下,临近地铁站的住房比不挨地铁站的住房贵 6637 元/平米。学校对房价的影响力度更大,临近学校的房价平均贵 12524.70 元。
二、主成分分析
在这一部分中,我们试图探索房子的地理位置、经纬度、是否处于学区以及是否临近地铁站这些信息对房价的影响。这部分我们试图通过这些数据,寻找住房的外界地理环境因素对房价的影响。
我们分别用协方差矩阵和相关系数矩阵作为线性变化的矩阵,得到主成份的分布趋势分别如下图所示:
基于相关系数矩阵:
其具体分析结果如下所示基于相关系数矩阵:
Importance of components:
Comp.1 Comp.2 Comp.3 StandardStandard deviation 1.241423 0.9466086 0.7502014
Proportion of Variance 0.513710 0.2986893 0.1876007
Cumulative Proportion 0.513710 0.8123993 1.0000000
不难发现,协方差矩阵作为线性变化矩阵的时候,第一主成分的解释力度比相关系数矩阵更大。
三、相关性分析
对各变量进行相关性分析,结果显示了我们研究的几个重要变量之间的相关系数大小,其中学校和所处行政区的相关性是所有变量两两相关性最强的,其次是地铁与区域的相关性以及地铁与学校的相关性。
但是,单纯的看相关系数我们无法断言这些变量之间有显著的相关关系,还需要进行一定的检验。用皮尔逊检验,检验结果如下:
Pearson's product-moment correlation
data:CompDis and Compsubway
t = -24.261,df = 16793, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1985900 -0.1693662
sample estimates:
cor
-0.1840188
Pearson's product-moment correlation
data:Compschool and Compsubway
t = 20.098,df = 16793, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval: 0.1384553 0.1679928
sample estimates:cor
0.1532583
兩个相关性检验的 P 值都极小,拒绝原假设,认为地区和地铁、学校和地铁之间有显著的相关关系。
四、时间序列分析
分析了学区房、地铁以及房子的经纬度(主要是为了研究南北东西朝向等)对房价的影响后,我们看看房价总体的走势和成交量。以下三个部分都将围绕房价和成交量的走势数据进行模型的建立和数据的分析。
显然,每年六月和年初的时候,二手房的成交量会迅速上涨,我们有理由相信该时间序列存在季节性趋势,下面对该时间序列进行分解。这样做的目的在于把该时间序列拆分成一个常去趋势部分和一个噪声部分,从而估计出趋势成分和规律的变动。 为了使分析更为准确,下面我们建立 ARIMA 模型。显然,该时间序列并不平稳,因此我们先对该数据进行一次差分。得到差分数据之后,我们先观察差分数据。从图形看来,一次查分结果后数据也并不平稳,我们可以先尝试用一阶查分数据建模,若建模情况不好则用二阶差分数据建模。
一阶差分和二阶差分模型的拟合情况如下:
arima(x = Sale, order = c(3, 1, 6)
Coefficients:
ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5 m
a6
0.5159 -0.5664 0.9496 -1.0977 0.6919 -1.2580 0.4679 0.1102
0.0858
s.e. 0.0167 0.0080 0.0215 0.0347 0.0457 0.0562 0.0568 0.0442
0.0333
sigma^2 estimated as 11186: log likelihood = -6660.35,aic = 13340.6 9
从模拟结果来看,ARIMA(3,1,6)模型和 ARIMA(3,2,6)模型的拟合效果差距不大,但是 ARIMA(3,2,6)模型的模拟效果更好。
五、copula 模擬
这一部分我们还是主要研究 2014-2016 年北京市房地产成交价和成交量的关系。利用 copula 针对其“相互关联结构”和“边缘分布”分开建立模型。
我们先估计 copula 参数,估计结果如下:
Bivariate copula: t (par = -0.2, par2 = 15.76, tau = -0.13)
我们再模拟边缘分布,成交量和成交价的模拟边缘分布如下图所示。下面两个图形分别是模拟生成的成交量的边际分布和模拟生成的成交均价的边际分布图。
六、结语
综上所述,我们可以发现除季节性趋势之外,北京市房价与其地理位置相关,当期位置在地铁站或学区附近时,其价值会有一个明显的上升。
作者简介:
张雨瑶(1997-),女,汉族,湖北武汉人,本科在读,研究方向:经济管理。
关键词:房价;Copula;主成分
一、回归分析
研究房价的影响因素,最简单直接的方法就是先建立线性回归模型,运用
OLS的回归估计方法,对待估参数进行估计,根据系数的显著性来判断影响。回归建模结果如下:
Call:
lm(formula =Compprice ~CompDis + Compsubway + Compschool + CompLAT + CompLONG)
Residuals:
Min 1Q Median 3Q Max
-58460 -10162 -1137 8679 167198
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15420 on 16789 degrees of freedom Multiple R-squared: 0.543, Adjusted R-squared: 0.5429 F-statistic: 3990 on 5 and 16789 DF, p-value: < 2.2e-16
显然,行政区域、地铁站以及学区都对房价有显著的影响,这都符合我们的直觉。其中,subway 的系数高达 6637.37,也就是说,在其他条件不变的情况下,临近地铁站的住房比不挨地铁站的住房贵 6637 元/平米。学校对房价的影响力度更大,临近学校的房价平均贵 12524.70 元。
二、主成分分析
在这一部分中,我们试图探索房子的地理位置、经纬度、是否处于学区以及是否临近地铁站这些信息对房价的影响。这部分我们试图通过这些数据,寻找住房的外界地理环境因素对房价的影响。
我们分别用协方差矩阵和相关系数矩阵作为线性变化的矩阵,得到主成份的分布趋势分别如下图所示:
基于相关系数矩阵:
其具体分析结果如下所示基于相关系数矩阵:
Importance of components:
Comp.1 Comp.2 Comp.3 StandardStandard deviation 1.241423 0.9466086 0.7502014
Proportion of Variance 0.513710 0.2986893 0.1876007
Cumulative Proportion 0.513710 0.8123993 1.0000000
不难发现,协方差矩阵作为线性变化矩阵的时候,第一主成分的解释力度比相关系数矩阵更大。
三、相关性分析
对各变量进行相关性分析,结果显示了我们研究的几个重要变量之间的相关系数大小,其中学校和所处行政区的相关性是所有变量两两相关性最强的,其次是地铁与区域的相关性以及地铁与学校的相关性。
但是,单纯的看相关系数我们无法断言这些变量之间有显著的相关关系,还需要进行一定的检验。用皮尔逊检验,检验结果如下:
Pearson's product-moment correlation
data:CompDis and Compsubway
t = -24.261,df = 16793, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1985900 -0.1693662
sample estimates:
cor
-0.1840188
Pearson's product-moment correlation
data:Compschool and Compsubway
t = 20.098,df = 16793, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval: 0.1384553 0.1679928
sample estimates:cor
0.1532583
兩个相关性检验的 P 值都极小,拒绝原假设,认为地区和地铁、学校和地铁之间有显著的相关关系。
四、时间序列分析
分析了学区房、地铁以及房子的经纬度(主要是为了研究南北东西朝向等)对房价的影响后,我们看看房价总体的走势和成交量。以下三个部分都将围绕房价和成交量的走势数据进行模型的建立和数据的分析。
显然,每年六月和年初的时候,二手房的成交量会迅速上涨,我们有理由相信该时间序列存在季节性趋势,下面对该时间序列进行分解。这样做的目的在于把该时间序列拆分成一个常去趋势部分和一个噪声部分,从而估计出趋势成分和规律的变动。 为了使分析更为准确,下面我们建立 ARIMA 模型。显然,该时间序列并不平稳,因此我们先对该数据进行一次差分。得到差分数据之后,我们先观察差分数据。从图形看来,一次查分结果后数据也并不平稳,我们可以先尝试用一阶查分数据建模,若建模情况不好则用二阶差分数据建模。
一阶差分和二阶差分模型的拟合情况如下:
arima(x = Sale, order = c(3, 1, 6)
Coefficients:
ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5 m
a6
0.5159 -0.5664 0.9496 -1.0977 0.6919 -1.2580 0.4679 0.1102
0.0858
s.e. 0.0167 0.0080 0.0215 0.0347 0.0457 0.0562 0.0568 0.0442
0.0333
sigma^2 estimated as 11186: log likelihood = -6660.35,aic = 13340.6 9
从模拟结果来看,ARIMA(3,1,6)模型和 ARIMA(3,2,6)模型的拟合效果差距不大,但是 ARIMA(3,2,6)模型的模拟效果更好。
五、copula 模擬
这一部分我们还是主要研究 2014-2016 年北京市房地产成交价和成交量的关系。利用 copula 针对其“相互关联结构”和“边缘分布”分开建立模型。
我们先估计 copula 参数,估计结果如下:
Bivariate copula: t (par = -0.2, par2 = 15.76, tau = -0.13)
我们再模拟边缘分布,成交量和成交价的模拟边缘分布如下图所示。下面两个图形分别是模拟生成的成交量的边际分布和模拟生成的成交均价的边际分布图。
六、结语
综上所述,我们可以发现除季节性趋势之外,北京市房价与其地理位置相关,当期位置在地铁站或学区附近时,其价值会有一个明显的上升。
作者简介:
张雨瑶(1997-),女,汉族,湖北武汉人,本科在读,研究方向:经济管理。