论文部分内容阅读
摘 要:特征价格函数形式的选择是从微观角度对数据进行分析,使得模型能够正确表达价格与其特征之间关系的问题。本文利用minitab对4、5、6月杭州二手房数据进行Box-Cox变换,分别构建各种函数形式二手房特征价格模型,进而利用实证效果最好的函数形式模型计算截面数据特征价格指数、合并数据特征价格指数和特征价格质量调整指数。
关键词:hedonic模型;Box-Cox变换;质量调整因子;特征价格指数
一、Hedonic模型和理论
特征价格模型(Hedonic模型)是一种国外处理异质产品差异特征与产品价格间关系经常采用的模型。在实际的住宅交易市场中,住宅产品是作为内在特征的集合来出售的,由于住宅特征对应的特征价格无法直接得到,所以需要采集住宅特征方面的资料和市场交易数据来构建数学模型,得出住宅特征和住宅价格之间的函数解析式即特征价格模型。
P=f(z1,z2,…,zn)
特征价格模型理论基础主要包括两个方面的内容:Lancaster新消费理论和Rosen市场供需均衡理论。根据该理论可得到特征价格均衡价格。当特征价格曲线与供给曲线和需求曲线相切时,就达到了一种均衡状态,此时的均衡点对应的价格即为均衡价格。Rosen假设在完全竞争市场下存在一种异质性商品,其市场价格通过市场中众多消费者与生产者彼此间的出价与要价行为决定。Hedonic函数即消费者最高出价和生产者最低要价的包络函数,函数的形式由购买者偏好和生产者成本与策略选择的分布决定。消费者追求效用最大化而生产者追求利润最大化,当二者价格互为一致时,就形成市场均衡价格。如下图
二、Box-Cox变换
为了有效的解决此类问题和提高回归精度,Box和Cox(1964)提出的一个变换即Box-Cox变换:
y(λ)=yλ-1/yλ≠0lnyλ=0
xθ=xθ-1/xθ≠0lnxθ=0
该变换为因变量和自变量的Box-Cox变换,则基于Box-Cox变换的投特征价格模型为:
y(λ)i=α0+∑mj=1αjxji+εi
其中λ、θ为待定参数。
三、杭州二手房特征价格模型实证分析
本文选取杭州6个主城区即西湖区、上城区、下城区、江干区、拱墅区、滨江区作为研究区域,在各个城区的各个板块选取一定量住宅数作为样本,搜集汇总各样本,形成2026个样本集。其中2011年4月的交易样本639个,5月的交易样本652个,6月的交易样本735个。通过纯手工在房地产网站、GIS、城市电子地图等收集了每个住宅样本的20个特征变量,它们分别为到CBD距离、到西湖距离、到钱江新城距离、是否临近钱塘江、是否是重点学区、是否临近地铁口、是否临近大学、附近教育配套情况、附近生活便利情况、附近娱乐健身情况、附近交通情况、面积、户型、朝向、楼层、装修、年龄、建筑类型、小区绿化、小区容积率。再对其量化得:
表:住宅样本特征变量汇总量化和编码
特征分类特征变量衡量指标编码
区位特征
到CBD距离到武林广场的直线距离X1
到西湖距离到西湖的直线距离X2
到钱江新城距离到钱江新城的直线距离X3
是否临近钱塘江小区距离钱塘江1000m内赋值为1,否则为0X4
附近交通情况小区周围500米内公交线路条数X5
是否是重点学区小区是重点学区赋值为1,否则为0X6
建筑特征建筑特征
面积一套住宅的总建筑面积(平方米)X7
户型室和厅的数目相加X8
朝向朝南的赋值为1,否则为0X9
楼层该住宅所处的楼层数X10
装修毛坯、简装、中装、精装分别赋值为1、2、3、4X11
年龄住宅房龄(2011年的房龄为0,其他房龄用2011减去房屋建成年份)X12
建筑类型总层数小于6则为多层,赋值1;总层数在6到12之间则为小高层,赋值2;总层数在大于12的则为高层,赋值3X13
小区绿化率该住宅所在小区的绿化率×100X14
小区容积率该住宅所在小区的容积率X15
邻里特征
附近生活便利情况小区附近1000m内有无银行、邮政、超市、医院、菜场,每一项为1分,共计5分X16
附近娱乐健身情况小区附近1000m内有无电影院、ktv、健身场所、体育场馆、歌舞厅,每一项为1分,共计5分X17
附近教育配套情况小区附近1000m内有无中学、小学、幼儿园,每一项为1分,共计5分X18
是否临近最近地铁口小区附近1000m内有地铁出口,赋值1;否则赋值0X19
是否临近大学小区附近1000m内存在大学,赋值1;否则赋值0X20
时间特征样本时间为2011年4~6月,作为虚拟变量,当样本选自5月则=0,=1,=0,其他同理t
先通过相关性分析,我们去除户型、娱乐健身、西湖这几个与面积、武林广场高度相关的变量。再运用剩下17个变量分别构建线性、对数和各自变量因与变量不同组合的Box-Cox变换等函数形式的模型,比较其优劣,选取适合本文所收集数据的函数形式。通过线性和对数形式的回归分析可都不是很理想。通过对不同自变量和因变量的不同组合的Box-Cox变换结果可得到如下表:
各变换模型λ、θ取值回归系数与实际不符变量及其显著性水平进入模型变量个数拟合优度
因变量Box-Cox变换λ=-0.32装修 0.000交通 0.00210R2=0.775
自变量Box-Cox变换θ=0朝向 0.478 生活便利 0.09 附近地铁 0.00090.598
自变量、因变量同时Box-Cox变换λ =θ=-0.07交通 0.644大学 0.83460.838
自变量、因变量分别Box-Cox变换λ=-0.32θ=0交通 0.170大学 0.737100.839
面积、价格分别Box-Cox变换λ=-0.32、θ=-0.29装修 0.511绿化率 0.08100.815
楼层、价格分别Box-Cox变换λ=-0.32、θ=0装修 0.025交通 0.002100.777
总层、价格分别Box-Cox变换λ=-0.32、θ=1装修 0.033交通 0.002100.77
装修、价格分别Box-Cox变换λ=-0.32、θ=1装修 0.002交通 0.033100.775
绿化率、价格分别Box-Cox变换λ=-0.32、θ=1.42装修 0.002交通 0.033100.775
容积率、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.002交通 0.03100.775
生活便利、价格分别Box-Cox变换λ=-0.32、θ=2装修 0.003 交通 0.034100.775
交通、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.003交通 0.01100.776
武林广场、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.069交通 0.001110.773
钱江新城、价格分别Box-Cox变换λ=-0.32、θ=0.36装修 0.034交通 0.004100.775
由上表可知,故选取其中模型回归效果最好的自变量、因变量分别Box-Cox变换函数形式构建特征价格指数。
四、杭州二手房特征价格指数
1.杭州二手房的截面数据特征价格指数
分别运用自变量因变量Box-Cox变换函数形式对4、5、6月份单独建模,可得到如下:
4月模型
价格(λ)=1.797+0.192*ln面积+0.013*朝向+0.005ln楼层-0.019*总层-0.003*年龄+0.022*学区+0.017*ln生活便利-0.039*ln武林广场-0.033*ln钱江新城
λ=-0.32 θ=0
5月模型
价格(λ)=1.601+0.384*面积(θ)-0.015*总层(θ)-0.001*年龄+0.032*学区-0.054*武林广场(θ)-0.048*钱江新城(θ)
λ=-0.25 θ=-0.06
6月模型
价格(λ)=1.614+0.235*面积(θ)-0.011*总层(θ)-0.000*年龄+0.018*学区+0.07*大学-0.033*武林广场(θ)-0.048*钱江新城(θ)
λ=-0.34 θ=-0.05
以不同时期的住房特征变量的平均数为权数,对不同时期的回归系数加权,可分别求出下列以4月份为基期,5月为报告期的杭州市二手房特征价格指数和以5月份为基期,6月为报告期的杭州是二手房特征价格指数:
同理可得到6月份的特征价格指数:
LI6月=101.6772%
PI6月=101.8212%
2.杭州二手房的合并数据特征价格指数
合并4、5、6三个月的数据,把时间因素作为一个独特的特征变量加入到特征价格模型中,通过对样本数据的回归分析,可分别得到不同时期的特征价格。在特征价格中,住宅价格的改变量分成两部分来表示,其中一部分是由住宅的某种或某些特征改变所造成的结果,而另一部分是由纯粹的供求关系或纯价格的变动所带来的结果,即这部分可以理解为时间因素的作用。
通过对整体数据的Box-Cox变换和建模可得如下结果:
价格(-0.19)=1.505+0.526*面积(-0.06)-0.024*总层(-0.06)+0.009*装修(-0.06)-0.003*年龄+0.04*学区+0.021*生活便利(-0.06)-0.073*武林广场(-0.06)-0.070*钱江新城(-0.06)-0.01*t5-0.007*t6
从其时间变量的回归系数出发,可推到处指数的公式:
3.杭州二手房的特征价格质量调整指数
特征价格质量调整指数是在简单算术平均数价格指数的基础上应用质量指数对其进行的调整。根据前章节介绍的特征价格质量调整指数的编制法则,首先计算简单算术平均数价格指数,该指数含有特征变量带来的价格变化,不能反映杭州二手房纯价格的变化,因此,需要用质量指数对其调整,以剔除质量变化的影响。质量指数的计算方法如下:
利用前小节回归得到的结果:
可知各回归系数和各特征变量的均值,把它们代入下式可得:
5月指数
6月指数
五、结果分析
从实证结果看,无论是截面数据特征价格指数、合并数据特征价格指数还是特征价格质量调整指数均较好地剔除了各特征变量对价格的影响,反映了住宅价格的真实变换趋势。在计算结果上,基于简单算术平均价格的指数大小为I5=99.7475%,I6=102.1606%;基于截面数据特征价格指数理论计算得到的指数大小分别为I5=101.2128%,I6=101.6772%;基于合并数据特征价格指数理论计算得到的指数大小分别为I5=99.0059%,I'5=99.9700%;基于特征价格质量调整指数理论计算得到的指数大小分别为I5=99.2886%,I'5=101.7023%。单从计算结果上来看,虽然指数的方向可能有所不同,但其数值的差距很小,基本认为其结果是有效的。
从简单平均价格指数和截面数据特征价格指数、合并数据特征价格指数、特征价格质量调整指数比较来看,比较简单算术价格指数和3个特征价格指数,3个特征价格指数数值基本上均比简单平均价格指数要来的低。表明如果以平均价格指数作为衡量杭州二手房价格的指标,将会高估二手房价格的上涨幅度。他们存在差异的原因在于是否有考虑住宅质量的变化。
比较3个特征价格指数,特征价格指数基本上都是在简单平均价格指数之下,进一步验证住宅的质量水平是在不断提高。但从指数下降的幅度来看,合并数据特征价格指数下降的幅度最大,说明运用该模型建立的指数能够更好的删除质量变化给指数带来的影响,使得结果更接近于纯价格变化。
比较6月份各特征价格指数,发现合并数据特征价格指数显示6月份是下降的。其原因是该指数基期不同于其他两个指数,它是以4月份为基期计算得到的,如果换算成5月份为基期,该6月份指数也是上升的。
横截面数据模型由于是对不同月份建立不同的回归模型,受样本容量不足的影响,模型中的多重共线性问题较突出,导致一部分模型的参数估计值不稳定,系数符号与预期的符号相悖,检验值不显著等问题。从5月份的横截面数据特征价格指数来看,其值大于1,该价格指数与其他指数的结果存在出入。侧面说明利用相对较少的月度数据进行建模,得到的模型效果和对剔除住宅特征对价格影响的效果不是很理想。而合并数据模型的优点在于可以合并数月的资料建立回归模型,有助于充分利用样本数据,获得稳定的统计推断结果。因此,无论从理论上讲,还是从实证结果看,合并数据模型能较好地反映异质商品价格变化的特点,更适合于编制特征价格指数。
(作者通讯地址: 浙江工商大学统计学院 浙江 杭州 310018)
关键词:hedonic模型;Box-Cox变换;质量调整因子;特征价格指数
一、Hedonic模型和理论
特征价格模型(Hedonic模型)是一种国外处理异质产品差异特征与产品价格间关系经常采用的模型。在实际的住宅交易市场中,住宅产品是作为内在特征的集合来出售的,由于住宅特征对应的特征价格无法直接得到,所以需要采集住宅特征方面的资料和市场交易数据来构建数学模型,得出住宅特征和住宅价格之间的函数解析式即特征价格模型。
P=f(z1,z2,…,zn)
特征价格模型理论基础主要包括两个方面的内容:Lancaster新消费理论和Rosen市场供需均衡理论。根据该理论可得到特征价格均衡价格。当特征价格曲线与供给曲线和需求曲线相切时,就达到了一种均衡状态,此时的均衡点对应的价格即为均衡价格。Rosen假设在完全竞争市场下存在一种异质性商品,其市场价格通过市场中众多消费者与生产者彼此间的出价与要价行为决定。Hedonic函数即消费者最高出价和生产者最低要价的包络函数,函数的形式由购买者偏好和生产者成本与策略选择的分布决定。消费者追求效用最大化而生产者追求利润最大化,当二者价格互为一致时,就形成市场均衡价格。如下图
二、Box-Cox变换
为了有效的解决此类问题和提高回归精度,Box和Cox(1964)提出的一个变换即Box-Cox变换:
y(λ)=yλ-1/yλ≠0lnyλ=0
xθ=xθ-1/xθ≠0lnxθ=0
该变换为因变量和自变量的Box-Cox变换,则基于Box-Cox变换的投特征价格模型为:
y(λ)i=α0+∑mj=1αjxji+εi
其中λ、θ为待定参数。
三、杭州二手房特征价格模型实证分析
本文选取杭州6个主城区即西湖区、上城区、下城区、江干区、拱墅区、滨江区作为研究区域,在各个城区的各个板块选取一定量住宅数作为样本,搜集汇总各样本,形成2026个样本集。其中2011年4月的交易样本639个,5月的交易样本652个,6月的交易样本735个。通过纯手工在房地产网站、GIS、城市电子地图等收集了每个住宅样本的20个特征变量,它们分别为到CBD距离、到西湖距离、到钱江新城距离、是否临近钱塘江、是否是重点学区、是否临近地铁口、是否临近大学、附近教育配套情况、附近生活便利情况、附近娱乐健身情况、附近交通情况、面积、户型、朝向、楼层、装修、年龄、建筑类型、小区绿化、小区容积率。再对其量化得:
表:住宅样本特征变量汇总量化和编码
特征分类特征变量衡量指标编码
区位特征
到CBD距离到武林广场的直线距离X1
到西湖距离到西湖的直线距离X2
到钱江新城距离到钱江新城的直线距离X3
是否临近钱塘江小区距离钱塘江1000m内赋值为1,否则为0X4
附近交通情况小区周围500米内公交线路条数X5
是否是重点学区小区是重点学区赋值为1,否则为0X6
建筑特征建筑特征
面积一套住宅的总建筑面积(平方米)X7
户型室和厅的数目相加X8
朝向朝南的赋值为1,否则为0X9
楼层该住宅所处的楼层数X10
装修毛坯、简装、中装、精装分别赋值为1、2、3、4X11
年龄住宅房龄(2011年的房龄为0,其他房龄用2011减去房屋建成年份)X12
建筑类型总层数小于6则为多层,赋值1;总层数在6到12之间则为小高层,赋值2;总层数在大于12的则为高层,赋值3X13
小区绿化率该住宅所在小区的绿化率×100X14
小区容积率该住宅所在小区的容积率X15
邻里特征
附近生活便利情况小区附近1000m内有无银行、邮政、超市、医院、菜场,每一项为1分,共计5分X16
附近娱乐健身情况小区附近1000m内有无电影院、ktv、健身场所、体育场馆、歌舞厅,每一项为1分,共计5分X17
附近教育配套情况小区附近1000m内有无中学、小学、幼儿园,每一项为1分,共计5分X18
是否临近最近地铁口小区附近1000m内有地铁出口,赋值1;否则赋值0X19
是否临近大学小区附近1000m内存在大学,赋值1;否则赋值0X20
时间特征样本时间为2011年4~6月,作为虚拟变量,当样本选自5月则=0,=1,=0,其他同理t
先通过相关性分析,我们去除户型、娱乐健身、西湖这几个与面积、武林广场高度相关的变量。再运用剩下17个变量分别构建线性、对数和各自变量因与变量不同组合的Box-Cox变换等函数形式的模型,比较其优劣,选取适合本文所收集数据的函数形式。通过线性和对数形式的回归分析可都不是很理想。通过对不同自变量和因变量的不同组合的Box-Cox变换结果可得到如下表:
各变换模型λ、θ取值回归系数与实际不符变量及其显著性水平进入模型变量个数拟合优度
因变量Box-Cox变换λ=-0.32装修 0.000交通 0.00210R2=0.775
自变量Box-Cox变换θ=0朝向 0.478 生活便利 0.09 附近地铁 0.00090.598
自变量、因变量同时Box-Cox变换λ =θ=-0.07交通 0.644大学 0.83460.838
自变量、因变量分别Box-Cox变换λ=-0.32θ=0交通 0.170大学 0.737100.839
面积、价格分别Box-Cox变换λ=-0.32、θ=-0.29装修 0.511绿化率 0.08100.815
楼层、价格分别Box-Cox变换λ=-0.32、θ=0装修 0.025交通 0.002100.777
总层、价格分别Box-Cox变换λ=-0.32、θ=1装修 0.033交通 0.002100.77
装修、价格分别Box-Cox变换λ=-0.32、θ=1装修 0.002交通 0.033100.775
绿化率、价格分别Box-Cox变换λ=-0.32、θ=1.42装修 0.002交通 0.033100.775
容积率、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.002交通 0.03100.775
生活便利、价格分别Box-Cox变换λ=-0.32、θ=2装修 0.003 交通 0.034100.775
交通、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.003交通 0.01100.776
武林广场、价格分别Box-Cox变换λ=-0.32、θ=0.5装修 0.069交通 0.001110.773
钱江新城、价格分别Box-Cox变换λ=-0.32、θ=0.36装修 0.034交通 0.004100.775
由上表可知,故选取其中模型回归效果最好的自变量、因变量分别Box-Cox变换函数形式构建特征价格指数。
四、杭州二手房特征价格指数
1.杭州二手房的截面数据特征价格指数
分别运用自变量因变量Box-Cox变换函数形式对4、5、6月份单独建模,可得到如下:
4月模型
价格(λ)=1.797+0.192*ln面积+0.013*朝向+0.005ln楼层-0.019*总层-0.003*年龄+0.022*学区+0.017*ln生活便利-0.039*ln武林广场-0.033*ln钱江新城
λ=-0.32 θ=0
5月模型
价格(λ)=1.601+0.384*面积(θ)-0.015*总层(θ)-0.001*年龄+0.032*学区-0.054*武林广场(θ)-0.048*钱江新城(θ)
λ=-0.25 θ=-0.06
6月模型
价格(λ)=1.614+0.235*面积(θ)-0.011*总层(θ)-0.000*年龄+0.018*学区+0.07*大学-0.033*武林广场(θ)-0.048*钱江新城(θ)
λ=-0.34 θ=-0.05
以不同时期的住房特征变量的平均数为权数,对不同时期的回归系数加权,可分别求出下列以4月份为基期,5月为报告期的杭州市二手房特征价格指数和以5月份为基期,6月为报告期的杭州是二手房特征价格指数:
同理可得到6月份的特征价格指数:
LI6月=101.6772%
PI6月=101.8212%
2.杭州二手房的合并数据特征价格指数
合并4、5、6三个月的数据,把时间因素作为一个独特的特征变量加入到特征价格模型中,通过对样本数据的回归分析,可分别得到不同时期的特征价格。在特征价格中,住宅价格的改变量分成两部分来表示,其中一部分是由住宅的某种或某些特征改变所造成的结果,而另一部分是由纯粹的供求关系或纯价格的变动所带来的结果,即这部分可以理解为时间因素的作用。
通过对整体数据的Box-Cox变换和建模可得如下结果:
价格(-0.19)=1.505+0.526*面积(-0.06)-0.024*总层(-0.06)+0.009*装修(-0.06)-0.003*年龄+0.04*学区+0.021*生活便利(-0.06)-0.073*武林广场(-0.06)-0.070*钱江新城(-0.06)-0.01*t5-0.007*t6
从其时间变量的回归系数出发,可推到处指数的公式:
3.杭州二手房的特征价格质量调整指数
特征价格质量调整指数是在简单算术平均数价格指数的基础上应用质量指数对其进行的调整。根据前章节介绍的特征价格质量调整指数的编制法则,首先计算简单算术平均数价格指数,该指数含有特征变量带来的价格变化,不能反映杭州二手房纯价格的变化,因此,需要用质量指数对其调整,以剔除质量变化的影响。质量指数的计算方法如下:
利用前小节回归得到的结果:
可知各回归系数和各特征变量的均值,把它们代入下式可得:
5月指数
6月指数
五、结果分析
从实证结果看,无论是截面数据特征价格指数、合并数据特征价格指数还是特征价格质量调整指数均较好地剔除了各特征变量对价格的影响,反映了住宅价格的真实变换趋势。在计算结果上,基于简单算术平均价格的指数大小为I5=99.7475%,I6=102.1606%;基于截面数据特征价格指数理论计算得到的指数大小分别为I5=101.2128%,I6=101.6772%;基于合并数据特征价格指数理论计算得到的指数大小分别为I5=99.0059%,I'5=99.9700%;基于特征价格质量调整指数理论计算得到的指数大小分别为I5=99.2886%,I'5=101.7023%。单从计算结果上来看,虽然指数的方向可能有所不同,但其数值的差距很小,基本认为其结果是有效的。
从简单平均价格指数和截面数据特征价格指数、合并数据特征价格指数、特征价格质量调整指数比较来看,比较简单算术价格指数和3个特征价格指数,3个特征价格指数数值基本上均比简单平均价格指数要来的低。表明如果以平均价格指数作为衡量杭州二手房价格的指标,将会高估二手房价格的上涨幅度。他们存在差异的原因在于是否有考虑住宅质量的变化。
比较3个特征价格指数,特征价格指数基本上都是在简单平均价格指数之下,进一步验证住宅的质量水平是在不断提高。但从指数下降的幅度来看,合并数据特征价格指数下降的幅度最大,说明运用该模型建立的指数能够更好的删除质量变化给指数带来的影响,使得结果更接近于纯价格变化。
比较6月份各特征价格指数,发现合并数据特征价格指数显示6月份是下降的。其原因是该指数基期不同于其他两个指数,它是以4月份为基期计算得到的,如果换算成5月份为基期,该6月份指数也是上升的。
横截面数据模型由于是对不同月份建立不同的回归模型,受样本容量不足的影响,模型中的多重共线性问题较突出,导致一部分模型的参数估计值不稳定,系数符号与预期的符号相悖,检验值不显著等问题。从5月份的横截面数据特征价格指数来看,其值大于1,该价格指数与其他指数的结果存在出入。侧面说明利用相对较少的月度数据进行建模,得到的模型效果和对剔除住宅特征对价格影响的效果不是很理想。而合并数据模型的优点在于可以合并数月的资料建立回归模型,有助于充分利用样本数据,获得稳定的统计推断结果。因此,无论从理论上讲,还是从实证结果看,合并数据模型能较好地反映异质商品价格变化的特点,更适合于编制特征价格指数。
(作者通讯地址: 浙江工商大学统计学院 浙江 杭州 310018)