多组独立与相关的计数数据的比较

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:meilin116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计数数据在日常生活中十分常见,这些数据广泛出现在医疗实验,交通部门和经济部门之中。例如心律反常病人的心跳次数,某段特定的时间内某呼叫中心所接到的电话数量,一天内进入某商场的顾客人数,一段时间内某特定的十字路口交通事故的发生次数等等。这些取值为非负整数的计数数据来源很广。本文从实际医疗背景中的某新药物使用前后同一批心律失常患者心室收缩数据的对比出发,引出如何对比多组相关或者独立的计数数据这个问题。人们对比较多组计数数据兴趣一直很深厚。在这个例子中,我们的目标是检验这个新药物是否有效果,因而我们需要比较的是两组的计数数据。不失一般性,我们的兴趣在于比较两组或者多组的计数数据。这些数据可以是相关的,大多数表现为配对数据,即,同一批个体或者预先挑选的一批配对个体在不同实验方法之下的记录数值,这样的数据中每组的数据量是相同的;这些数据也可以是不相关的,也就是说,对于不同的组别,每个个体是彼此独立的,并且数量也可以不等。对于多组计数数据的研究可以帮助人们在真实生活中做出判断甚至制定决策并且有足够的理论依据。例如上述的检验一种新药是否有预期的效果,检验监控装置是否能显著减少十字路口的交通事故数量以及促销活动是否显著地增加了进入商场的顾客人数等等。统计意义上的显著可以提供足够的依据而不是仅仅靠主观经验或者直觉来判断,能够避免误判。通常来说,计数数据可以用泊松分布来进行拟合,但是泊松分布要求随机变量的期望和方差需要相同,而这一条件在实践与生活中往往无法满足。很多数据都会呈现方差大于期望的现象,这被称为过度离散。负二项分布可以很好地处理这个问题,因为它本身含有一个参数用来对方差与期望间的关系进行建模。除了过度离散的问题外,还存在很多其他的分布,用来解决一些特定的数据中出现的问题。例如看牙医次数的数据,大多数人如果非必要,不会每年都去看牙医,因为价格十分昂贵也比较麻烦,这样就导致了数据中含有过多的零。泊松分布以及负二项分布都没办法对这样的数据进行建模。因而我们需要考虑零膨胀的分布例如零膨胀泊松分布以及零膨胀负二项分布等等。相比原始的分布,这些改动后的分布往往能够更好地对数据进行建模,达到一个更好的效果。对于特定的多组计数数据之间的比较,我们可以有针对性地建立模型,专门解决这个数据。然而这样的方法太过于费时费力。因此我们在这篇文章中主要采用比较通用的回归分析,因为其结果直观易懂且可以进行后续的统计推断与假设检验。在这篇文章中,组别被作为一个重要因素被纳入回归分析之中。对于生活中常见的计数数据来说,泊松回归与负二项回归都是被广泛使用的的模型,它们可以定性地分析因变量对响应变量的影响,其中也包括我们感兴趣的组别这个因素。对于零膨胀的数据,我们还采用了零膨胀泊松回归,考虑到过度离散的问题,我们也建立了零膨胀负二项回归,并且将零膨胀模型的结果与原始的的回归相比。我们发现零膨胀模型的效果更好。在本文中,我们还简要地对每一个回归模型进行了公式推导,描述了泊松回归和负二项回归以及对应的零膨胀模型如何用EM算法或者牛顿算法进行参数估计以及假设检验。上述的广义线性模型能够很好地拟合各组之间彼此独立的计数数据。但是,对于配对数据,我们注意到,同一个个体在多次测量中可能会由于自身原因产生一些细微的波动,例如心跳次数的测量可能由于个体自身的原因导致波动较大,因此在建模的时候,我们必须考虑个体在多次测量下的波动问题,否则可能会导致回归结果误差较大。对于相关的多组计数数据,其通常表现为对同一批多个个体在不同实验方法下的数据的记录,例如上述的同一批患者在服用药物前后的心跳次数。我们在回归模型中引入随机效应用来解释单个个体的波动性。我们假设模型中为了衡量个体波动而引入的随机效应来自正态分布,并且期望为零方差未知。在给定随机效应的前提下,我们假设响应变量相互之间是独立的泊松变量或者来自负二项分布的变量,并且其期望通过一个链接函数与协变量以及随机效应联系起来。这样一来,我们充分考虑到了每个个体自身可能存在的波动性并对其进行建模。在广义线性模型之中引入随机效应来进行建模的模型一般称为广义线性混合模型。广义线性混合模型的设定十分简单易懂且符合实际情况,但是,其中的参数估计这一部分较难。由于随机效应无法被观测,无法得到似然函数的解析式,所以无法通过EM算法或牛顿算法直接对其进行参数估计。因此,在本文中,蒙特卡罗方法被采用,并且与EM算法以及牛顿算法相结合来对参数进行估计。由于随机效应是观测不到的,因此我们将其视作EM算法中的缺失数据。在E步,有了样本的观测值后,我们就能获得随机效应后验分布的表达式,然后我们从这个比较复杂的概率密度表达式中抽取样本,并对似然函数进行数值计算;在M步,我们对参数进行迭代更新。如此不断迭代一直到满足事先给定的收敛条件进而得到参数的极大似然估计。在这个过程中,因为随机效应的后验分布表达式十分复杂,导致从后验分布中进行直接抽样无法实现,所以我们需要使用一些辅助方法来进行抽样。接受-拒绝方法是一种广泛使用的抽样方法,它可以在直接抽样较难的情况下通过另外一个较容易抽样的概率密度来进行间接抽取,并且它不要求知道完整的概率密度表达式,可以忽略与变量无关的常数。本文使用此方法来进行抽样,在实践中证明其是可行的,缺点在于有时抽样速度较慢。我们先进行了数值实验,原假设是各组之间无显著差别,备择假设是各组之间有差别。数据的产生机制是从泊松分布中抽取样本,并加上随机效应,数值实验中随机效应来自于正态分布。没有随机效应的简单的广义线性模型以及加入了随机效应的广义线性混合模型都被我们用来对模拟出来的数据进行建模。然后我们比较了不同模型的一二两类错误的大小,其中第二类错误是以功效的大小来衡量的。我们发现,对于这两类错误,带随机效应的模型均有良好的表现。另外,这些模型对于组别这个变量的显著性检验结果都十分一致。这也说明了在模型中加入随机效应是十分合理以及有必要的。在若干个真实数据上,我们比较了简单的广义线性模型,包括泊松回归和加入了随机效应的泊松回归,以及负二项回归和加入了随机效应的负二项回归。我们发现不同模型对于组间差距的识别表现十分一致,广义线性混合模型还能够估计出随机效应的方差。由此说明,在真实情况下,由于同一个体自身原因所导致的随机效应确实存在。在多组相关计数数据中尤其是配对数据,随机效应的影响在建模时应该加以考虑。在这些数据集上,有些数据是零膨胀的,因此我们建立了简单的泊松和负二项回归;对于明显带有超量零的数据,我们建立了适用于拥有超量零的数据的零膨胀泊松和负二项回归。接着我们比较了各种不同的回归模型,发现对于含有超量的零的数据,零膨胀模型比简单的回归模型效果要好很多。对于不同模型之间的比较,我们主要是利用信息准则来判断。信息准则是基于似然函数来比较不同模型的,它对参数数量以及样本大小进行了一定的惩罚,从而选出最优的模型。最后,我们对文章进行总结以及提出展望。展望主要是对随机效应的处理之上。首先,本文中对个体的随机效应的处理是假设不同个体随机效应是独立同分布的正态效应,只含有一个待估参数也就是其标准差。我们还可以假设不同个体的随机效应相互独立,都来自于正态分布,但是我们可以假设它们的方差不同。然后可以对不同个体的方差进行迭代然后得到极大似然估计。同样的,我们还能够假定随机效应来自于其他的分布,简单的例子包括伽玛分布等等。其次,本文还假设不同个体之间是无关的,也就是说,它们的随机效应是不相关的。但是,在真实情况下,不同个体也可能是相关的。因此我们在假设不同随机效应时,不仅可以设定为相互独立,还可以设定为互相之间存在关系。例如多元正态分布且协方差不为零或者其他类似的多元分布。通过引入多元的随机效应,我们能够对不同个体之间的相关性进行建模,从而得到更好更合理的结果。
其他文献
成都龙泉茶店上侏罗统蓬莱镇组位于四川盆地川西坳陷内部,是良好的天然气勘探开发区。前人通过对川西坳陷中段侏罗系的油气地质勘探,已经发现了洛带、新都、什坊、马井等工业气藏,反映出侏罗系勘探潜力十分巨大。相关学者对于蓬莱镇组作为常规天然气储层的研究比较深入和全面,但是较为缺乏专门针对蓬莱镇组野外单剖面露头方面进行的研究。因此本论文在野外采集样本、镜下薄片观察分析的基础上,有针对性地、系统地对成都龙泉茶店
里伍铜矿黑牛洞矿段位于四川省九龙县烟袋乡境内,大地构造属性为扬子陆块西侧、松潘-甘孜造山带东南缘、木里-锦屏山弧形推覆构造带及其北西侧后缘拆离出露的一系列变质核杂岩体。黑牛洞矿段位于江浪变质核杂岩体内,该变质核杂岩体核部主要出露地层为中元古界里伍岩群(Pt_2l)堆垛层系统,主要出露岩石为变质程度较深的基性火山岩和次火山岩。受区内构造活动的影响,江浪穹隆周围形成一系列呈环状分布的褶皱构造和断裂构造
空肠弯曲菌是世界范围内一种重要的人畜共患性病原菌,可引起人畜腹泻、还可引起发烧、腹部绞痛和急性肠炎,严重时可引发肝炎等并发症甚至死亡。主要存在于家禽、野禽空肠内,
惠州凹陷位于珠江口盆地珠一坳陷的中部,是南海东部海域最富烃的凹陷之一。由于受到古近系埋藏深度大和储层低孔低渗的影响,在新近系海相地层发现了惠州凹陷油田。最近几年,随着不断加大对古近系的勘察力度,在HZ19-1、HZ19-2、HZ25-4、HZ25-7等构造中获得商业或者潜在商业性发现,揭示了惠州凹陷古近系良好的勘探潜力。惠州凹陷文昌组埋深大,储层非均质性强,成岩作用特征、储集性特征等认识不够明确,
有机硫化合物在药物化学和合成材料中具有广泛的应用。C-S键通常存在于天然产物和生物活性化合物中,因此C-S键的形成具有很高的研究意义。目前,已报道了大量关于C-S偶联反应以构建C-S键的方法,但这些反应各有其优缺点及其适用范围。其中,过渡金属催化的C-S偶联反应是C-S键合成反应中最为常用且有效的一种手段。然而,过渡金属具有其本身的局限性,如价格昂贵,毒性高,易发生副反应,易失活等。基于过渡金属催
Gelonin是从大戟科植物何首乌(Gelonium multiflorum)种子中分离出来的一种植物毒素。它属于I型核糖体失活蛋白,可以通过切割真核28S核糖体RNA 4324位点的腺嘌呤,诱导核糖体不可逆失活,从而抑制蛋白质合成。Gelonin缺少与细胞膜结合的结构域,因此它对完整的细胞是相对无毒的。尽管少量的Gelonin可以通过内吞方式进入细胞,抑制蛋白质的合成,促进细胞凋亡,但是细胞摄取
本文主要利用边界层函数法和微分不等式理论研究若干类具有重退化根的奇摄动问题。第一章绪论部分介绍了本文的研究背景、研究目的及国内外研究进展,并综述了相关的预备知识。第二章研究了具有幂率衰减边界层的奇摄动问题。考虑具有三重退化根的二阶奇摄动Dirichlet边值问题。利用边界层函数法构造出形式解,得到的边界层函数呈幂率衰减形式,并用上下解方法得到形式解的存在性和一致有效估计。第三章研究了带Neuman
系统辨识是常用的数学建模方法,然而在实际工业过程中,负载扰动是时刻存在的,而且会对产品的质量产生影响。现有的算法大部分未考虑负载扰动这一因素,导致对模型参数估计不准确,影响控制器设计,从而控制效果不理想。所以研究在负载干扰下的参数估计问题具有理论意义和实际指导价值。本文针对在负载扰动干扰下的线性系统和Hammerstein非线性系统,提出了相应的子空间抗扰辨识方法。本文研究内容可以从三个层面归纳:
本文主要研究Tokamak等离子体运动模型中存在的强异向性问题,该模型中用于描述自治电场的是强异向性椭圆模型。模型的强异向性使得异向性参数趋于零时的极限模型不适定,从而导致离散情况下的线性方程组趋向奇异。到目前为止,保渐进方法被认为是处理模型存在的数值问题的最佳方法。本文在已被研发出来的保渐进方法的基础上,主要研究模型的四阶有限体积离散格式,用四阶的有限体积法来求解强异向性椭圆模型的数值解。本文通
皮尔森相关系数测量变量之间的线性和对称性关系,这很容易理解,也很容易处理,它的性质已经被很多学者研究。它衡量两个数据集在一条直线上的程度。它的绝对值越接近1,两个变量之间的相关性就越强,数值越接近0,两个变量之间的相关性就越弱。它在数据分析中发挥了巨大的作用,在金融分析中有着广泛的应用。但它最大的缺点在于只能测量变量之间的对称性和线性相关性,对变量之间的非对称性和非线性无能为力。这也是它在一些情况