论文部分内容阅读
[摘 要] stata是一款强大的统计软件,本文利用stata10进行审计抽样。首先利用stata10确定属性抽样和变量抽样的样本规模,其次利用stata10创建随机数表和进行等距抽样。
[关键词] 统计软件stata
现代统计软件如Eviews、spss、sas、stata等具有强大的功能,不仅能够进行回归等数据分析,也可以在审计抽样中大显身手。在审计抽样过程中,样本规模的确定和如何抽样是两个重要的问题,本文应用stata10来解决上述两个方面的问题。
一、运用stata确定抽取样本的规模
根据审计测试的目的,可以把审计抽样分为属性抽样和变量抽样。由于属性抽样和变量抽样的计算方法不同,具体运用stata确定样本规模时也不同。
1.运用stata确定属性抽样的样本规模
对于属性抽样样本规模的确定,可以利用统计模型建立属性抽样样本规模公式,即,其中n为样本规模,t为可靠程度正态标准差(统计中用Z1-α表示),p为预计总体偏差率,E为精确度。假设t=1.96、p=0.36、E=0.04,在stata10中,我们可以输入以下命令来确定样本规模(>号后面为命令,在stata10中不用输入“>”符号,下同):
>input t(输入变量t)
>1.96(输入t的值)
>end (输入t值结束)
>input p (输入变量p)
>0.36 (输入p的值)
>input E (输入变量E)
>0.04 (输入E的值)
>gen n=t^2*p*(1-p)/(E^2) (产生变量n)
>list(查看结果)
输出结果如图1所示:
Input为输入变量的命令,当第一个变量输入结束时用end命令,产生新的变量用gen命令,而产生的新变量和原有变量的关系即为新变量的计算表达式,list命令则是查看结果的命令,利用此命令即可在stata10的结果区看到最终结果。图1即为输出的最终结果,其中变量t、p、E是根据假设输入的,而n则是stata10根据输入的变量计算得出。
2.运用stata确定变量抽样的样本规模
对于变量抽样样本规模,我们将变量抽样样本规模公式定义为:,其中,n为初始样本规模,SD为预先估计的标准差,ZA为可接受得误受风险的置信系数,ZR为可接受的误拒风险的置信系数,N为总体容量,TM为总体可容忍错报,E为估计的总体错报点估计值。假设SD=20、ZA=1.28、ZR=1.15、N=4000、TM=21000、E=1500,可以采用以下命令得到样本规模n:
>input SD
>20
>end
>input ZA
>1.28
>input ZR
>1.15
>input N
>4000
>input TM
>21000
>input E
>1500
>gen n=(SD*(ZA+ZR)*N/(TM-E))^2
>list
输出结果如图2所示:
在图2中,SD、ZA、ZR、N、TM和E均为输入的变量,而n是我们需要计算的抽样规模。在这个例子中,我们计算的抽样规模为99.38556,约为100个样本。
二、运用stata进行抽样
进行审计抽样时,在确定样本规模的基础上,经常采用随机选样或者等距选样的方法抽取样本。利用stata可方便地创建随机数表,也可以等距选择样本。
1.创建随机数表
随机选样是指对审计对象总体和次级总体的所有项目,按随机规则选取样本。通常的做法是根据随机数表按照一定规则进行选样,因此,随机数表尤为重要。在实际工作中,可以利用现有的随机数表,也可以运用stata进行创建。假设准备创建5×5的随机数表,可以使用以下命令:
>set obs 5
>gen x1=uniform()
>gen x2=uniform()
>gen x3=uniform()
>gen x4=uniform()
>gen x5=uniform()
>list
输出结果如图3所示:
set obs命令是指产生的变量的列数,本例中set obs 5则表明产生的随机数为5列,uniform()命令表示产生的变量是随机变量。从图3中可以看出,stata创建了一个5×5的七位数的随机数表。这个随机数表的数量可以有变化,也可以创建6×6或者20×6的随机数表。假如创建20×6的随机数表,在命令中输入set obs 20,并利用命令gen x6=uniform(),这样就可以创建一个20×6的一个随机数表。
2.进行等距抽样
等距选样是指按照相同的间隔从审计对象总体中等距离地选取样本的一种选样方法。采用等距选样法,首先要计算选样间距,确定选样起点,然后再根据间距顺序地选取样本。假设审计人员需要抽查下表中的材料,以3为间距等距选择样本。
在输入数据时,可把数据用Excel表编辑,保存成CSV格式,在stata中选择File →Import →ASCII data created by a spreadsheet ,在弹出的对话框中Browse,找到保存的CSV文件导入即可。具体进行等距选样的命令如下:
>keep if mod(xh,3)==0
>list
输出的结果如图4所示:
由于等距抽样是以序号作为变量去除以间距,所以序号一列尤为重要,在命令中括号内的变量名称必须是序号的变量。从图4中可以看到审计人员应选择材料三、材料六和材料九进行审计。
参考文献:
王群勇:STATA在统计与计量分析中的应用[M].天津:南开大学出版社,2007
[关键词] 统计软件stata
现代统计软件如Eviews、spss、sas、stata等具有强大的功能,不仅能够进行回归等数据分析,也可以在审计抽样中大显身手。在审计抽样过程中,样本规模的确定和如何抽样是两个重要的问题,本文应用stata10来解决上述两个方面的问题。
一、运用stata确定抽取样本的规模
根据审计测试的目的,可以把审计抽样分为属性抽样和变量抽样。由于属性抽样和变量抽样的计算方法不同,具体运用stata确定样本规模时也不同。
1.运用stata确定属性抽样的样本规模
对于属性抽样样本规模的确定,可以利用统计模型建立属性抽样样本规模公式,即,其中n为样本规模,t为可靠程度正态标准差(统计中用Z1-α表示),p为预计总体偏差率,E为精确度。假设t=1.96、p=0.36、E=0.04,在stata10中,我们可以输入以下命令来确定样本规模(>号后面为命令,在stata10中不用输入“>”符号,下同):
>input t(输入变量t)
>1.96(输入t的值)
>end (输入t值结束)
>input p (输入变量p)
>0.36 (输入p的值)
>input E (输入变量E)
>0.04 (输入E的值)
>gen n=t^2*p*(1-p)/(E^2) (产生变量n)
>list(查看结果)
输出结果如图1所示:
Input为输入变量的命令,当第一个变量输入结束时用end命令,产生新的变量用gen命令,而产生的新变量和原有变量的关系即为新变量的计算表达式,list命令则是查看结果的命令,利用此命令即可在stata10的结果区看到最终结果。图1即为输出的最终结果,其中变量t、p、E是根据假设输入的,而n则是stata10根据输入的变量计算得出。
2.运用stata确定变量抽样的样本规模
对于变量抽样样本规模,我们将变量抽样样本规模公式定义为:,其中,n为初始样本规模,SD为预先估计的标准差,ZA为可接受得误受风险的置信系数,ZR为可接受的误拒风险的置信系数,N为总体容量,TM为总体可容忍错报,E为估计的总体错报点估计值。假设SD=20、ZA=1.28、ZR=1.15、N=4000、TM=21000、E=1500,可以采用以下命令得到样本规模n:
>input SD
>20
>end
>input ZA
>1.28
>input ZR
>1.15
>input N
>4000
>input TM
>21000
>input E
>1500
>gen n=(SD*(ZA+ZR)*N/(TM-E))^2
>list
输出结果如图2所示:
在图2中,SD、ZA、ZR、N、TM和E均为输入的变量,而n是我们需要计算的抽样规模。在这个例子中,我们计算的抽样规模为99.38556,约为100个样本。
二、运用stata进行抽样
进行审计抽样时,在确定样本规模的基础上,经常采用随机选样或者等距选样的方法抽取样本。利用stata可方便地创建随机数表,也可以等距选择样本。
1.创建随机数表
随机选样是指对审计对象总体和次级总体的所有项目,按随机规则选取样本。通常的做法是根据随机数表按照一定规则进行选样,因此,随机数表尤为重要。在实际工作中,可以利用现有的随机数表,也可以运用stata进行创建。假设准备创建5×5的随机数表,可以使用以下命令:
>set obs 5
>gen x1=uniform()
>gen x2=uniform()
>gen x3=uniform()
>gen x4=uniform()
>gen x5=uniform()
>list
输出结果如图3所示:
set obs命令是指产生的变量的列数,本例中set obs 5则表明产生的随机数为5列,uniform()命令表示产生的变量是随机变量。从图3中可以看出,stata创建了一个5×5的七位数的随机数表。这个随机数表的数量可以有变化,也可以创建6×6或者20×6的随机数表。假如创建20×6的随机数表,在命令中输入set obs 20,并利用命令gen x6=uniform(),这样就可以创建一个20×6的一个随机数表。
2.进行等距抽样
等距选样是指按照相同的间隔从审计对象总体中等距离地选取样本的一种选样方法。采用等距选样法,首先要计算选样间距,确定选样起点,然后再根据间距顺序地选取样本。假设审计人员需要抽查下表中的材料,以3为间距等距选择样本。
在输入数据时,可把数据用Excel表编辑,保存成CSV格式,在stata中选择File →Import →ASCII data created by a spreadsheet ,在弹出的对话框中Browse,找到保存的CSV文件导入即可。具体进行等距选样的命令如下:
>keep if mod(xh,3)==0
>list
输出的结果如图4所示:
由于等距抽样是以序号作为变量去除以间距,所以序号一列尤为重要,在命令中括号内的变量名称必须是序号的变量。从图4中可以看到审计人员应选择材料三、材料六和材料九进行审计。
参考文献:
王群勇:STATA在统计与计量分析中的应用[M].天津:南开大学出版社,2007