论文部分内容阅读
【摘要】 本文简要介绍了逆抽样法和舍选抽样法两种基本的抽样方法,并通过改进舍选抽样法的抽样思路及包络函数的选用进而改进Gibbs抽样,并将改进后的Gibbs抽样法应用于贝叶斯模型的参数估计中。改进后的抽样法简洁易懂,使用起来更加方便。
【关键词】逆抽样法 舍选抽样法 参数估计 分段抽样
【中图分类号】O212.2 【文献标识码】A 【文章编号】1009-9646(2008)11(a)-0130-01
1 引言
对贝叶斯模型进行参数估计是贝叶斯分析中最困难的一部分,因为我们需要知道参数的后验分布。当模型参数只有一个时,利用贝叶斯定理很容易计算参数的后验分布,然后利用ML方法即可得出我们感兴趣的量的特征。而当模型参数有两个或更多时对联合后验的积分就变成很棘手的问题。Gibbs 抽样[1]帮我们解决了这个问题。为更好利用这种抽样方法,我们首先简单谈谈最基本的抽样法:逆抽样法和舍选抽样法[1]。
2 两种基本的抽样法——逆抽样法和舍选抽样法
2.1 逆抽样法及其改进
假若给定一元密度函数f(x)及变量x的取值范围,要从该分布中对x抽样,只需计算x的分布函数并求其逆函数。具体步骤如下:
从区间[0,1]上均匀抽取样本u;
计算z值.其中z=F-1(u)。
用f(x)=1/18(2x+3)举例,其中1 利用R语言编程并运行图像如下:
从第一次抽样的图像上可以看出,抽样并不太均匀,区间[1,3]两端的取值明显偏少。为改善这一缺陷,我们可以将区间[0,1]平分成几小段,然后分别在每小段上均匀抽样(如图抽样二)。
后一种抽样法抽取的数据方差偏大,也即分散开来,没有过分集中于均值处。
2.2 舍选抽样法及其再认识
在舍选抽样方法中,从x的密度函数f(x)中抽样包括3个步骤[1]:
(1)从一个较简单的易抽样的分布g(x)中抽取样本z, 且密度函数g(x)需要满足的条件是:常数m与g(x)的乘积在任一点的取值都要比f(x)大,即m×g(x)为f(x)的包络函数。
(2)计算比值;
(3)从U(0,1)上抽取样本u,如果R>u, 则接受z,否则返回第一步继续抽样。
为方便起见,我们选取的g(x)一般为均匀分布即g(x)=C(常数),从而得到的包络函数为一矩形框,选择适当的分布函数使其将密度函数图像尽可能大的包络起来。
下面我们从另一个角度来理解该抽样法。
首先我们看舍选抽样法的第三步,当R>u时,即时,接受z。
将上式变形为,由于在对g(x)的选择中常取均匀分布,即g(x)=C,所以m×g(z)永远是常数,而u是从U(0,1)上抽取的,所以m×g(z)×u相当于是在区间[0,m×g(z)]上的均匀抽取的。我们可以先从横轴区间[a,b]均匀抽取x,纵轴区间[0,h]均匀抽取y(令m×g(z)=h),从而构成实数对(x,y),无限次抽样后点集将会均匀布满整个矩形区域。而实数对(x,f(x))构成密度函数曲线,作为矩形区域的分界线,f(x)下方的点所占去的面积即为积分曲线的面积。
3 改进后的Gibbs 抽样方法
由于在横轴区间[-3,3]和纵轴区间[0,h]构成一个矩形区域,抽样的成功率仅占百分之四十多点,抽样数据失败率较高。所以在进行抽样时数据波动偏大,为解决这个问题,我们可以将矩形区域更换为三角形区域。这样我们的包络函数就不再为常数,而是一次函数。其中,用标准正态分布举例其运行结果为0.8307087(接收率),与真实值0.8338717相差不大。
4 Gibbs 舍选抽样法在二元参数估计中的应用
下面我们将改进后的舍选抽样法应用到 Gibbs 抽样当中,并对二元参数模型进行系数估计。
例:设计一个适当的抽样从标准正态分布N(0,1)当中抽取20个样本。反过来,再利用抽到的样本求得均值和方差的后验分布并对其抽样(假定均值方差的联合先验为无信息先验即)[1]。
由于用包络函数选用矩阵的接收率较低,我们采用三角形即斜线的包络函数进行抽样。从运行结果可以看出,对标准正态分布的随机抽样为以上的样本时,均值和方差的抽样估计值分别为-0.0804537和1.091899。由于抽样有随机性,多次运行后结果有些许波动,但计算出来的均值和方差的平均值不会太偏离0和1.通过本例我们可以看到改进后的Gibbs抽样法使用方便且抽样法可以避免复杂的积分,可广泛应用于贝叶斯参数估计中。
参考文献
[1] Scott M.Lynch.Introduction to Applied Bayesian Statistics and Estimation for Social Scientists[EB/OL],http://www.princeton.edu/~slynch.April 2007.
[2] 薛毅,陈立萍.《统计建模与R软件》[M],北京:清华大学出版社,2007.4.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
【关键词】逆抽样法 舍选抽样法 参数估计 分段抽样
【中图分类号】O212.2 【文献标识码】A 【文章编号】1009-9646(2008)11(a)-0130-01
1 引言
对贝叶斯模型进行参数估计是贝叶斯分析中最困难的一部分,因为我们需要知道参数的后验分布。当模型参数只有一个时,利用贝叶斯定理很容易计算参数的后验分布,然后利用ML方法即可得出我们感兴趣的量的特征。而当模型参数有两个或更多时对联合后验的积分就变成很棘手的问题。Gibbs 抽样[1]帮我们解决了这个问题。为更好利用这种抽样方法,我们首先简单谈谈最基本的抽样法:逆抽样法和舍选抽样法[1]。
2 两种基本的抽样法——逆抽样法和舍选抽样法
2.1 逆抽样法及其改进
假若给定一元密度函数f(x)及变量x的取值范围,要从该分布中对x抽样,只需计算x的分布函数并求其逆函数。具体步骤如下:
从区间[0,1]上均匀抽取样本u;
计算z值.其中z=F-1(u)。
用f(x)=1/18(2x+3)举例,其中1
从第一次抽样的图像上可以看出,抽样并不太均匀,区间[1,3]两端的取值明显偏少。为改善这一缺陷,我们可以将区间[0,1]平分成几小段,然后分别在每小段上均匀抽样(如图抽样二)。
后一种抽样法抽取的数据方差偏大,也即分散开来,没有过分集中于均值处。
2.2 舍选抽样法及其再认识
在舍选抽样方法中,从x的密度函数f(x)中抽样包括3个步骤[1]:
(1)从一个较简单的易抽样的分布g(x)中抽取样本z, 且密度函数g(x)需要满足的条件是:常数m与g(x)的乘积在任一点的取值都要比f(x)大,即m×g(x)为f(x)的包络函数。
(2)计算比值;
(3)从U(0,1)上抽取样本u,如果R>u, 则接受z,否则返回第一步继续抽样。
为方便起见,我们选取的g(x)一般为均匀分布即g(x)=C(常数),从而得到的包络函数为一矩形框,选择适当的分布函数使其将密度函数图像尽可能大的包络起来。
下面我们从另一个角度来理解该抽样法。
首先我们看舍选抽样法的第三步,当R>u时,即时,接受z。
将上式变形为,由于在对g(x)的选择中常取均匀分布,即g(x)=C,所以m×g(z)永远是常数,而u是从U(0,1)上抽取的,所以m×g(z)×u相当于是在区间[0,m×g(z)]上的均匀抽取的。我们可以先从横轴区间[a,b]均匀抽取x,纵轴区间[0,h]均匀抽取y(令m×g(z)=h),从而构成实数对(x,y),无限次抽样后点集将会均匀布满整个矩形区域。而实数对(x,f(x))构成密度函数曲线,作为矩形区域的分界线,f(x)下方的点所占去的面积即为积分曲线的面积。
3 改进后的Gibbs 抽样方法
由于在横轴区间[-3,3]和纵轴区间[0,h]构成一个矩形区域,抽样的成功率仅占百分之四十多点,抽样数据失败率较高。所以在进行抽样时数据波动偏大,为解决这个问题,我们可以将矩形区域更换为三角形区域。这样我们的包络函数就不再为常数,而是一次函数。其中,用标准正态分布举例其运行结果为0.8307087(接收率),与真实值0.8338717相差不大。
4 Gibbs 舍选抽样法在二元参数估计中的应用
下面我们将改进后的舍选抽样法应用到 Gibbs 抽样当中,并对二元参数模型进行系数估计。
例:设计一个适当的抽样从标准正态分布N(0,1)当中抽取20个样本。反过来,再利用抽到的样本求得均值和方差的后验分布并对其抽样(假定均值方差的联合先验为无信息先验即)[1]。
由于用包络函数选用矩阵的接收率较低,我们采用三角形即斜线的包络函数进行抽样。从运行结果可以看出,对标准正态分布的随机抽样为以上的样本时,均值和方差的抽样估计值分别为-0.0804537和1.091899。由于抽样有随机性,多次运行后结果有些许波动,但计算出来的均值和方差的平均值不会太偏离0和1.通过本例我们可以看到改进后的Gibbs抽样法使用方便且抽样法可以避免复杂的积分,可广泛应用于贝叶斯参数估计中。
参考文献
[1] Scott M.Lynch.Introduction to Applied Bayesian Statistics and Estimation for Social Scientists[EB/OL],http://www.princeton.edu/~slynch.April 2007.
[2] 薛毅,陈立萍.《统计建模与R软件》[M],北京:清华大学出版社,2007.4.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”