基于个体识别的动物生态模型的复合似然推断

来源 :南开大学 | 被引量 : 0次 | 上传用户:zqqv353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动物生态学(animal ecology)与动物学、生态学密切联系,是现代生态学的重要内容之一。数学和统计的思想与方法在动物生态学中有着广泛的应用,在该领域的发展过程中发挥了巨大的推动作用。动物个体识别(animal individual identification)是通过检验动物个体的唯一性标志,从而判断前后两次或多次被观测的个体是否属于同一个体。在动物生态数据收集过程中,动物个体识别技术的作用与优势日益突出。基于动物个体识别数据,我们通过建立适当的数学模型,能够挖掘出研究区域内相关动物群体的种群数量、出生率和死亡率、运动/迁移模式、以及动物社会结构等丰富的动物生态学信息。众所周知,似然函数,以及基于似然函数的极大似然估计、似然比检验等方法在统计推断中扮演着重要角色。但是,个体识别数据往往具有较为复杂的相关性结构(不同个体之间,不同时间点之间),同时,还存在着数据缺失的问题(例如,我们无法观测到目标动物群体中所有个体)。个体识别数据的这些特点使得似然函数变得不再适用或者难以计算。自1988年Lindsay提出复合似然函数(composite likelihood function)以来,由于其在提升计算效率、处理高维数据、解决复杂数据结构问题等方面的优势,基于复合似然函数的方法在不同的研究领域得到了广泛应用,也为动物生态学数据模型提供了新的统计推断工具。在动物生态学研究中,滞后识别率(lagged identification rate,LIR)和滞后关系率(lagged association rate,LAR)是描述动物运动和社会结构的关键参数。本论文中,我们以研究滞后识别率和滞后关系率的两类模型为例,首先说明这两类模型均是以马尔可夫过程为基础,进而通过构造新的随机变量建立而成;然后,针对两类模型的统计推断,引入了复合似然函数的理论框架,并系统地研究了模型参数的极大复合似然估计(maximum composite likelihood estimators,MCLEs)的理论性质;最后,我们提出了基于复合似然函数的模型选择方法,并应用于滞后识别率和滞后关系率模型。本文的主要研究内容和贡献如下:1.首次将复合似然函数的理论框架引入到动物个体识别数据的统计推断中,说明了用于动物运动和社会结构分析的修正似然函数(modified likelihood)方法都能够被纳入此框架中,通过构造成对变量乘积形式的复合似然函数(pairwise product composite likelihood),以实现滞后识别率和滞后关系率等参数的估计;2.在复合似然函数的理论框架下,给定适当的正则性假设条件,本论文证明了滞后识别率和滞后关系率两类模型参数的极大复合似然估计的收敛性和渐近正态性等理论性质,并在多种模型设置下,通过模拟数据实验研究进一步展示和检验参数估计的收敛效果;3.模型选择对于动物生态学研究至关重要。本论文基于构造的复合似然函数,提出了用于模型选择的复合似然信息准则(composite likelihood information criteria,CLIC),CLICa和CLICb准则,并将其与一些常用的模型选择准则,包括AIC,BIC以及QAIC,进行比较。模拟结果显示,CLICa和CLICb准则的表现优于AIC,BIC和QAIC,能够以更大概率选择出正确的滞后识别率和滞后关系率模型;4.我们将复合似然函数方法应用于加拉帕戈斯群岛附近水域中雌性抹香鲸,以及加拿大新斯科舍海岸附近峡谷中北瓶鼻鲸的个体识别数据,进行滞后识别率和滞后关系率等参数的推断,并利用CLICa和CLICb准则进行模型选择。此外,本文还采用基于t-SNE的分类方法对两类鲸鱼的个体识别数据进行了分类。综上所述,本论文将复合似然函数引入到基于动物个体识别数据的动物生态学研究中,针对滞后识别率和滞后关系率两类模型构建复合似然函数并进行统计推断。我们系统地研究了复合似然函数的理论性质,证明了极大复合似然估计的收敛性和渐近正态性,并且提出了基于复合似然函数的模型选择方法。本论文的研究工作为基于动物个体识别数据的统计学推断提供了参数估计和模型选择的新思路与理论基础,对于动物生态学研究中其它类型数据,尤其是具有复杂相关性结构的数据分析也有着重要的参考价值。
其他文献
动脉粥样硬化是一种慢性炎症性疾病,涉及多种细胞的变化,包括平滑肌细胞异常增殖和迁移、巨噬细胞浸润并吞噬脂质成分以及细胞外基质堆积等。Nogo-B已被证实具有多种病理生理功能,如抑制平滑肌细胞增殖迁移、促进巨噬细胞黏附和炎症反应等。然而,我们并不清楚Nogo-B是否能影响动脉粥样硬化发生发展及斑块稳定性。本论文中,我们发现在动脉粥样硬化患者血浆中Nogo-B水平升高,并与ApoE4水平呈负相关。为了
近年来,来自于微分几何、数学物理等领域中的指数非线性问题越来越受到关注,本文主要考虑指数非线性问题的爆破分析与紧性分析,结合最佳几何不等式,对相关问题进行深入研究.首先,我们利用凸重排技巧以及水平集估计,建立涉及N-Finsler-Laplacian算子和Lp范数扰动的最佳Trudinger–Moser不等式.此外,我们还通过爆破分析和容度技巧得到极值函数的存在性.其次,我们考虑带边黎曼面上的预定
本论文主要关注图像分解问题,提出了两个非利普希茨(non-Lipschitz)下卷积(infimal convolution,IC)分解模型并将其应用到了一些图像处理问题当中,如图像分割、卡通-纹理分解和Retinex问题。我们的贡献主要包括第二章和第三章中的两个工作:第二章,我们提出了一个基于非利普希茨分解模型的两阶段图像分割方法。目前,对像素不均匀的图像进行多区域分割依然是图像处理中一个比较大
试验是人们了解自然、探索自然规律的重要手段,它在工业、农业、工程及科学的各个领域有着重要的理论意义和应用价值.试验主要分为两类:实体试验与计算机试验.实体试验是在农田、工厂或实验室进行的,通过试验员亲手操作、现场观测来完成,而计算机试验是通过复杂的计算机代码来实现的.试验设计是试验中最关键的环节之一,通过合理地控制变量的取值来实现统计分析中的某些优良性质.本学位论文旨在对试验设计的某些新课题展开研
背景和目标:肺癌是在全球范围内发病率和死亡率最高的癌症,肺腺癌是肺癌最常见的类型。尽管近年在研究和治疗中取得了巨大进步,但是治疗效果仍有待提高。研究表明,肝X受体(liver X receptor,LXR)被其配体T0901317(T317)激活后,能促进干扰素γ(interferonγ,IFNγ)表达,发挥抗肿瘤作用。然而,LXR同时激活脂质合成基因表达,导致肝脏脂质过度合成和积累,造成脂肪肝及
试验在工业、农业、工程和科学等领域无处不在。总的来说,试验大致可以分为两类:实体试验和计算机试验。在实体试验中,科学家进行实验室试验或进行现场观察。由于实体试验中总是存在随机误差,对于相同的输入变量试验人员可能获得不同的输出响应。随机误差的存在会增加数据分析和处理的复杂性。为了解决这个问题,实体试验往往遵循以下三个基本设计原则,即随机化、重复和分区组。当实体试验的成本很高、耗时很长,或者在实际环境
缺失数据在工农业生产,药物研发,流行病学,人口普查,民意测验等领域普遍存在.数据缺失会导致获得的样本信息减少,降低模型效率,增加模型复杂度,不利于进行数据分析和统计推断.依据不同的缺失机制,缺失数据被分为完全随机缺失,随机缺失和非随机缺失三种.前两种缺失机制与缺失数据本身无关,一般称为可忽略缺失,而最后一种缺失机制与缺失数据有关,称为不可忽略缺失.在不可忽略缺失数据情形下,参数可识别问题往往给估计
随着经济和社会的飞速发展,飞机对人类的影响越来越突出。现代飞机在商业,民用和军事领域承担着重要的任务;这对飞机的机动性,可靠性和控制精度提出了更高的要求。由于姿态控制系统是飞机的关键部件,并且在飞行稳定性中起着重要作用,因此姿态控制的研究是一项极具挑战性的工作。飞机是一个复杂且高度非线性的系统,但是传统的控制方法无法满足现代飞机的控制精度。为了提高飞机姿态控制的准确性,本文将抗扰控制,滑模控制和反
普通变形杆菌(Proteus vulgaris)为环境和临床中常见的条件致病菌,在特定条件下会引起胃肠感染、尿路交叉感染等疾病。环丙沙星等抗生素广泛用于治疗该类细菌所引发的感染,但也使得耐药细菌大量出现,严重影响临床治疗效果,危及人类生命健康。本实验室前期从南美白对虾肠道中分离得到一株携带有两个内源质粒的变形杆菌(Proteus),后经本研究鉴定为普通变形杆菌。本研究将该普通变形杆菌命名为P3M并
随着计算机性能和通信技术的快速发展,我们在工业生产、生物医学及现代计量经济学等诸多领域都会遇到各种各样复杂且高维的数据.为了挖掘潜藏在数据背后的信息,比如研究某些因素对我们感兴趣变量的影响,我们常常会借助各种回归模型建立起相关因素之间的桥梁,然后基于假定的模型去做相应的统计推断.为了便于解释相关模型的分析结果,所假定的模型需要尽量简单,这往往需要大量先验知识的参与.如果人们怀疑最初假定的模型,抑或