用于比较两组相关二项观测值的二元二项分布

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xieming15898575325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
配对计数数据广泛存在于我们生活的各个领域,并且引起了很多统计学工作者的关注,尤其在生物医学研究中,我们经常需要设立实验组和对照组以研究治疗效果。在拟合这类数据的模型中,泊松模型、负二项分布和二项分布是目前文献中应用最广泛的模型。通过比较三种模型的分布和统计特性,研究人员发现泊松和负二项分布模型在拟合配对数据时,存在无法拟合负相关情况的缺点,因为在二元泊松和负二项模型的假设下,相关系数必然为正。为了克服这一障碍,许多研究试图构建混合模型以适应配对数据间不同的相关关系。然而,二元二项分布允许相关系数为正数、零或负数。因此,提出用二元二项模型拟合两组相关观测值是一个合理的假设。根据边际分布的不同参数设置,二元二项分布分为两种类型,分别被称为一型与二型二元二项分布。虽然这种分布的基本性质已经得到了广泛的研究,但我们发现针对未知参数的估计方法仍有很大的改进空间,并且针对二元二项分布回归模型的研究仍然较少。在参数估计方面,不论是分布还是回归模型中的参数估计量都不具有解析解,研究人员不得不采用数值方法来计算二元二项分布中概率参数估计量的表达式。为了得到无法使用解析解形式表示的最大似然估计,人们开发了大量的数值方法,在现代众多的数值方法中,牛顿-拉弗森算法是应用最广泛的一种。牛顿算法的基本优点是其在最大值附近可以拥有很快的二次收敛速度,但在求解过程中会遇到许多潜在的问题。首先,当参数的维数非常大,或者现有数据表现出复杂的不完整性时,每次对Hessian矩阵进行迭代计算可能变得十分困难和繁琐。其次,当观测信息矩阵为奇异时,牛顿算法就会失效。此外,在牛顿算法中,我们无法保证对数似然函数的值在每次迭代计算中都持续增大,这就导致出现了算法无法收敛的结果。最后,如果我们选择了一个较差的初始值,该算法也不会收敛,即牛顿算法对初始值非常敏感。因此,本文采用另一种迭代算法:Minorization-Maximization(MM)算法来获得参数的最大似然估计。MM算法是著名的优化方法ExpectationMaximization(EM)算法的更一般版本,与EM算法一样,具有概念简单、易于实现、数值性能稳定等方面的优势。值得注意的是,当EM算法由于缺少缺失数据结构或无法人为地构造出缺失数据结构而失效时,MM算法是一种非常有用的替代方法。MM算法背后的原理是利用Jensen不等式以及其他相关不等式构造出一系列单调收敛的优化算法,其中最关键的步骤是找到一个合适的原目标函数的替代函数。在求解最大似然估计时,这个目标函数通常就是关于未知参数θ的对数似然函数。换句话说,我们的主要工作是找到对数似然函数的替代函数,这个替代函数Q(·|θ(t))的图像永远在?(·|θ(t))的下方,并且在点θ=θ(t)与之相切。这样一来,我们只须求出替代函数的最大值,而不必对原目标函数进行最优化计算。由于替代函数值的增大将迫使对数似然函数向上爬坡,并且在一定紧致性和连续性的条件下,此上升性质可以保证MM算法的收敛性以及赋予其单调收敛性,所以找到替代函数的极大值点,也就等于找到了原目标函数的极大值点。此外,在参数估计部分,我们还利用Metropolis-Hastings算法对二元二项分布进行了贝叶斯分析,以此作为区别于传统频率方法的一种补充方法。MetropolisHastings算法是一系列用于从贝叶斯后验分布中抽样的马尔科夫链模拟方法的统称。这项技巧需要一个相对简单的分布,称为跳跃分布或建议分布,用来帮助我们从一个棘手的后验分布中抽取样本。此算法利用跳跃分布在抽样过程中进行随机游走,以目标似然函数在新迭代点的值决定接受或者拒绝此样本。在本文中,我们采用均值为当前迭代点、方差为一固定常数的正态分布作为跳跃分布。除了点估计,我们对二元二项分布的未知参数进行了区间估计。为了得到其区间估计,我们采用了基于200次重复试验的自助法求置信区间,这在后续的实例分析中可以用来检验得到的估计的显著性。不论是基于传统频率方法的MM算法,还是基于贝叶斯估计的Metropolis-Hastings算法,都表现出良好的估计性能。对此,我们进行了数值模拟实验,在蒙特卡洛模拟实验中,我们采用平均最大似然估计和平均均方误差来衡量使用MM算法得出的最大似然估计量的表现,采用蒙特卡洛标准误差用以衡量贝叶斯估计中Metropolis-Hastings算法得出的估计量的估计效果。需要提及的是,二元二项变量的模拟抽样方法是基于这样一个事实,即二元二项分布实际上是四项分布在具有缺失数据时的一种特例表现,因此我们可以通过设定相应四项分布的参数值来抽取不同参数设定下的目标分布来进行实验。我们针对二元二项分布中两个变量为正相关和负相关的情况都设置了不同的参数值和样本量,一方面,我们发现随着样本量的增大,参数估计的偏差越来越小,稳定程度越来越高。另一方面,在比较MM算法和贝叶斯方法时,我们发现在贝叶斯方法中,通过抽样得出的估计量,特别是样本的众数,表现出与参数值真实值偏差较大的现象,背后的原因可能为蒙特卡洛抽样结果并不是单峰的,因此简单地选取众数作为估计量并不能做到全局最优的效果。对比之下,MM算法直接采用最大似然估计的结果更为稳定,所以在考虑二元二项回归模型时,我们只采用了MM算法来对协变量系数进行参数估计。在回归分析中,我们提出了二元二项回归模型,此回归模型适用于当响应变量以二元二项观测值的形式出现、并且可以用一系列协变量来解释的情况。其次,我们采用logistic变换作为两个边际分布的均值参数与解释变量之间的连接函数。特别地,除了一般情况下考虑的几组协变量系数,我们还引入了一个相关系数参数λ来解释所有受试者之间齐次的相关关系,用以衡量二元二项变量之间的相关程度,并通过MM算法得出其最大似然估计。当λ为正时,二元二项变量表现为正相关,反之则为负相关,当λ等于0时,两者互相独立。另外,我们介绍了几种参数和非参数的假设检验方法,用以检验配对观测值之间的关系,分别是似然比检验、比分检验和Kendall检验。由于似然比检验和比分检验只在大样本的情况下可以使用检验统计量的渐进分布做推断,因此在实例分析中,我们采用非参数方法中的Kendall检验对二元二项变量进行独立性检验。在不失一般性的基础上,本文主要讨论了一型二元二项分布,并针对一型分布的情况进行了实例分析。在实例分析中,我们将本文设计的算法应用在四个案例中。第一个实例是牙齿数据,由左右两边上下咬合情况的数据组成,用来评估人类颌骨的对称性。第二个是分别在佩戴矫正器和不戴的情况下,受试者左右后足的动力数据,结果表明左右两边的生理特征确实存在关联。此外,作为统计过程控制中的一个典型应用,我们分析了一间制药工厂在药品生产和杀菌过程中的空气质量数据,研究对象为微小粒子和微生物数目这两项可能相关的指标。最后,为了探讨带有协变量的情况,我们收集了2019年新冠状病毒疾病患者的临床数据,将收入重症加强护理病房(ICU)的患者数量和出现呼吸困难的患者数量作为两组可能相关的响应变量,并应用所提出的回归模型来解释临床特征与潜在协变量之间的关系。
其他文献
列联表是一种常见的数据存储格式,其中的数据是将观测数据按两个或者更多属性进行分类后的频数。列联表常用于医学、生物学、社会科学等学科之中。通过对列联表进行统计分析,
该研究考察了社区林业对农村生计的影响,并考察了社区当地人通过社区林业创收的各种方式。该数据是通过与户主访谈和关键信息提供者而获得的,管理了392份问卷,并将其分发给该
日照渔家乐历经二十余年发展至今,以其独特的渔家风情和民俗文化吸引了众多旅游者,也成为更多渔民创业的新选择。虽然渔家乐旅游产品多年来不断尝试更新换代,但囿于传统理念
高熵合金(High-entropy alloys,HEAs)具有独特的原子结构特征,因而呈现出诸多不同于传统合金的独特性能,在国际学术界引起了广泛的关注和研究兴趣,并在工程应用上具有巨大的潜
目的:探讨泛素样蛋白D(Ubiquitin D,UBD)在哈萨克、维吾尔和汉族三民族食管鳞癌患者癌及癌旁正常粘膜组织中蛋白和m RNA水平的表达情况,并探究其临床病理学意义。方法:收集173例食管鳞癌患者癌和癌旁正常粘膜组织标本,其中包含维吾尔、哈萨克和汉族。采用免疫组织化学染色法和实时荧光定量PCR法检测UBD的表达水平,并结合患者临床病理特征及预后资料探究UBD与患者临床恶性表型和预后的相关性
学位
中国推进城镇化的速度持续加快,预计到2035年,中国的城镇化率将提升至71%~73%。推进城镇化进程已经成为释放经济发展的重要动力,但快速的城市扩张超过了当地的资源环境承载能
进入21世纪以来,人力资源在企业内部发展和外部竞争的过程中扮演着越来越重要的角色,充分发挥人力资源的积极作用对于企业持续生存发展具有着十分重要的意义,而绩效考核与管
目的:数据挖掘技术在健康体检大数据研究中展现了出色的性能,但在实际应用中仍然面临数据冗余及模型可解释性两大难题。研究以代谢综合征为切入点,分析与评价特征选择和模型可解释性方法在处理健康体检大数据冗余及预测模型难以解释中的应用价值。方法:收集乌鲁木齐市某健康体检机构近三年体检数据,进行删除、填补等预处理后剩余39134份。采用特征选择方法(RFE、m RMR、Lasso)进行特征筛选,基于特征子集构
学位
随着互联网技术的快速发展,各行各业的信息化水平越来越高,中小型商贸企业更需要搭上信息化的发展快车,论文将企业的采购、销售、库存业务与信息化进行融合,使得各个部门管理
现代社会已全面进入信息化时代,科技发达,信息快捷畅通,人们之间的交流越来越密切,生活越来越方便,大数据就是这个高科技信息时代的产物。“大数据”在物理学、生物学、环境