论文部分内容阅读
摘要:本文中应用普通的线性回归--最小二乘法和广义线性模型对我国人口死亡率的预测模型进行研究,得出死亡率预测模型,分析结果,从结果中可为制定中国人口政策提供一定的依据。
关键词:负二项回归;死亡率预测
1.研究背景
人口老龄化是指总人口中因年轻人口数量减少、年长人口数量增加而导致的老年人口比例相应增长的动态。按照这个标准,我国已于1999年进入老龄社会。人口老龄化产生的原因:出生率下降、人口寿命提高。近年来我国为防止老龄化更加严重,出台的“二孩”政策。但在有些专家提出“二孩”政策并不能真正改善老龄化问题,只是一个缓解的过程。人口老龄化问题关乎我国未来经济社会的长远发展,必须对当前我国人口老龄化的趋势及可能带来的影响进行深入分析,以便及时调整相应的政策和措施加以应对。因此研究我国人口死亡率模型,建立预测模型是非常有必要的。
2.数据的处理与描述
2.1 数据的描述
对数据进行描述性统计分析,研究各数据指标之间的关系,分析出男性生存人口数、死亡人数、死亡率随年龄有一定的规律变化。为使变量之间的分布波动相对稳定,呈现的分布更明显,考虑对男性生存人口数、死亡人数、死亡率三个变量进行对数变换,画出散点图。可得出有关男性生存人口数、死亡人数、死亡率的对数随年龄变化的大致规律。
(1)死亡率对数在0至10岁这个区间呈递减趋势,从10岁开始,男性死亡率随年龄的增加而增加。
(2)男性死亡人口数的对数总体趋势是随着年龄的增加而增加,但在0至10岁之间是呈递减趋势,随后增加,直到75岁之后又递减。
(3)男性生存人口数总体趋势是随着年龄的增加而减少,在0至50岁之间有波动性。
2.2 响应变量分布的研究
由死亡人数对数直方图可根据横轴将数据分为两部分,以log(男性死亡人口数)=10为分界点。采用KS检验对双峰分布拟合效果进行检验, 值小于显著性水平 ,拒绝原假设,认为拟合的双峰分布不能确切地描述死亡率对数的分布情况。不能从分布情况来建立预测模型,考虑从变量之间的关系来建立模型。
3.人口死亡率的模型建立及结果分析
3.1模型建立
利用最小二乘法拟合死亡人数。模型建立: ,响应变量Y为死亡人数。回归变量X包含年份、年龄和生存人口数对数。检验模型显著性,利用R软件实现,比较P值与预设α值0.05后,可认为所有变量在显著性水平为0.05下具有显著性。但拟合优度的值为0.6486,修正后的拟合优度为0.6476,拟合程度不高。
3.2 模型分析
对模型进行残差分析,画出残差对拟合值散点图、残差的正态QQ图、位置尺度图、学生化残差与杠杆值图,曲线点表明存在非线性,可能意味着响应变量和回归变量之间不是线性的。说明用最小二乘方法来建立死亡人数的预测模型是不适合的。考虑建立用广义线性模型来建立模型。
3.3 负二项广义线性模型
3.3.1 模型建立
在建立中国死亡人数模型时,设 为年龄i,年份j的死亡人数, 为年龄i,年份j的生存人数, 表示包括常数项和年龄i、年份j的解释变量对应的设计向量,向量 为模型中的待估参数。
连接函数为
因此对中国死亡人数建立的负二项广义线性模型为:
利用R语言实现模型,得出的结果如下所示
Null deviance: 43790.1 Residual deviance: 1014.5 AIC: 20786
在显著性水平α=0.05、α=0.1下,两个解释变量的分量都是显著的。由 ,得出包括年龄、年份解释变量的偏差统计量的值远远小于不包括年龄、年份解释变量的偏差统计量的值,故建立死亡人数预测模型应考虑年龄、年份两个因子水平。
3.3.2 模型分析
去掉异常值,重新建立模型后,Null deviance,Residual deviance,AIC的值都减小,说明模型拟合的效果更好。
为了进一步说明用负二项广义线性模型建立中国死亡人数预测模型具有一定的优势性,此处用泊松回归模型进行建立模型。对两个模型进行比较,负二项回归模型中Null deviance、Residual deviance、AIC的值都远远小于泊松回归模型的三个项目的值。
3.4 结果分析
本文至此已经建立中国人口死亡人数的预测模型,那么现在要转换回建立中国人口死亡率预测模型的问题,由建立好的中国人口人数预测模型中年份、年龄与死亡人数之间的关系,以及死亡率的公式,得出预测的死亡率。可画出死亡率随年龄变化的散点图进行分析,年龄因子对死亡率影响比较大,因此找到死亡率随年龄变化的模式对预测非常重要。此外,随着时间的推移,死亡率初步呈现下降趋势,导致人口老龄化的形成。
4.结论
通过研究分析,得出死亡率预测模型,分析死亡率随年龄、年份的变化模式,可为实施中国人口政策提供一定的依据。在本文中,发现最小二乘法不适用于建立死亡率预测模型,而负二项回归相对于泊松回归拟合结果比较好。从建立的模型中看死亡率随年份变化的模式中,可知死亡率逐渐下降,导致老龄化社会的形成。但本文中建立的死亡率预测模型还有不足之处,有待改进。在用負二项回归建立模型时,还可再改进,如选取主要的因子,可能建立的模型具有更优的拟合优度性。
参考文献:
[1]李诗羽, 张飞, 王正林. 数据分析:R语言实践[M]. 北京:电子工业出版社, 2014. 243-259.
[2]Douglas C.Montgomery, Elizabeth A.Peck, G.Geoffrey Vining. Introduction to Linear Regression Analysis, Fifth Edition[M]. 北京:机械工业出版社, 2016. 326-335.
[3]张连增, 段白鸽. 广义线性模型在生命表死亡率修匀中的应用[J]. 人口研究, 2012, (3): 89-103.
[4]陈卓恒.负二项分布的广义线性模型及其应用[J].华侨大学学报,2011,32(2).
[5]徐业峰. 负二项回归模型的统计推断[D]. 扬州大学, 2014.
关键词:负二项回归;死亡率预测
1.研究背景
人口老龄化是指总人口中因年轻人口数量减少、年长人口数量增加而导致的老年人口比例相应增长的动态。按照这个标准,我国已于1999年进入老龄社会。人口老龄化产生的原因:出生率下降、人口寿命提高。近年来我国为防止老龄化更加严重,出台的“二孩”政策。但在有些专家提出“二孩”政策并不能真正改善老龄化问题,只是一个缓解的过程。人口老龄化问题关乎我国未来经济社会的长远发展,必须对当前我国人口老龄化的趋势及可能带来的影响进行深入分析,以便及时调整相应的政策和措施加以应对。因此研究我国人口死亡率模型,建立预测模型是非常有必要的。
2.数据的处理与描述
2.1 数据的描述
对数据进行描述性统计分析,研究各数据指标之间的关系,分析出男性生存人口数、死亡人数、死亡率随年龄有一定的规律变化。为使变量之间的分布波动相对稳定,呈现的分布更明显,考虑对男性生存人口数、死亡人数、死亡率三个变量进行对数变换,画出散点图。可得出有关男性生存人口数、死亡人数、死亡率的对数随年龄变化的大致规律。
(1)死亡率对数在0至10岁这个区间呈递减趋势,从10岁开始,男性死亡率随年龄的增加而增加。
(2)男性死亡人口数的对数总体趋势是随着年龄的增加而增加,但在0至10岁之间是呈递减趋势,随后增加,直到75岁之后又递减。
(3)男性生存人口数总体趋势是随着年龄的增加而减少,在0至50岁之间有波动性。
2.2 响应变量分布的研究
由死亡人数对数直方图可根据横轴将数据分为两部分,以log(男性死亡人口数)=10为分界点。采用KS检验对双峰分布拟合效果进行检验, 值小于显著性水平 ,拒绝原假设,认为拟合的双峰分布不能确切地描述死亡率对数的分布情况。不能从分布情况来建立预测模型,考虑从变量之间的关系来建立模型。
3.人口死亡率的模型建立及结果分析
3.1模型建立
利用最小二乘法拟合死亡人数。模型建立: ,响应变量Y为死亡人数。回归变量X包含年份、年龄和生存人口数对数。检验模型显著性,利用R软件实现,比较P值与预设α值0.05后,可认为所有变量在显著性水平为0.05下具有显著性。但拟合优度的值为0.6486,修正后的拟合优度为0.6476,拟合程度不高。
3.2 模型分析
对模型进行残差分析,画出残差对拟合值散点图、残差的正态QQ图、位置尺度图、学生化残差与杠杆值图,曲线点表明存在非线性,可能意味着响应变量和回归变量之间不是线性的。说明用最小二乘方法来建立死亡人数的预测模型是不适合的。考虑建立用广义线性模型来建立模型。
3.3 负二项广义线性模型
3.3.1 模型建立
在建立中国死亡人数模型时,设 为年龄i,年份j的死亡人数, 为年龄i,年份j的生存人数, 表示包括常数项和年龄i、年份j的解释变量对应的设计向量,向量 为模型中的待估参数。
连接函数为
因此对中国死亡人数建立的负二项广义线性模型为:
利用R语言实现模型,得出的结果如下所示
Null deviance: 43790.1 Residual deviance: 1014.5 AIC: 20786
在显著性水平α=0.05、α=0.1下,两个解释变量的分量都是显著的。由 ,得出包括年龄、年份解释变量的偏差统计量的值远远小于不包括年龄、年份解释变量的偏差统计量的值,故建立死亡人数预测模型应考虑年龄、年份两个因子水平。
3.3.2 模型分析
去掉异常值,重新建立模型后,Null deviance,Residual deviance,AIC的值都减小,说明模型拟合的效果更好。
为了进一步说明用负二项广义线性模型建立中国死亡人数预测模型具有一定的优势性,此处用泊松回归模型进行建立模型。对两个模型进行比较,负二项回归模型中Null deviance、Residual deviance、AIC的值都远远小于泊松回归模型的三个项目的值。
3.4 结果分析
本文至此已经建立中国人口死亡人数的预测模型,那么现在要转换回建立中国人口死亡率预测模型的问题,由建立好的中国人口人数预测模型中年份、年龄与死亡人数之间的关系,以及死亡率的公式,得出预测的死亡率。可画出死亡率随年龄变化的散点图进行分析,年龄因子对死亡率影响比较大,因此找到死亡率随年龄变化的模式对预测非常重要。此外,随着时间的推移,死亡率初步呈现下降趋势,导致人口老龄化的形成。
4.结论
通过研究分析,得出死亡率预测模型,分析死亡率随年龄、年份的变化模式,可为实施中国人口政策提供一定的依据。在本文中,发现最小二乘法不适用于建立死亡率预测模型,而负二项回归相对于泊松回归拟合结果比较好。从建立的模型中看死亡率随年份变化的模式中,可知死亡率逐渐下降,导致老龄化社会的形成。但本文中建立的死亡率预测模型还有不足之处,有待改进。在用負二项回归建立模型时,还可再改进,如选取主要的因子,可能建立的模型具有更优的拟合优度性。
参考文献:
[1]李诗羽, 张飞, 王正林. 数据分析:R语言实践[M]. 北京:电子工业出版社, 2014. 243-259.
[2]Douglas C.Montgomery, Elizabeth A.Peck, G.Geoffrey Vining. Introduction to Linear Regression Analysis, Fifth Edition[M]. 北京:机械工业出版社, 2016. 326-335.
[3]张连增, 段白鸽. 广义线性模型在生命表死亡率修匀中的应用[J]. 人口研究, 2012, (3): 89-103.
[4]陈卓恒.负二项分布的广义线性模型及其应用[J].华侨大学学报,2011,32(2).
[5]徐业峰. 负二项回归模型的统计推断[D]. 扬州大学, 2014.