论文部分内容阅读
近年来,随着生物学的迅猛发展,对生物数据的分析研究也吸引了越来越多统计学家的目光。在本文中,我们对生物数据中使用的一些统计模型、方法及相关理论进行了研究,并通过数据模拟和实例分析验证了我们所提方法的效果和适用性。艾滋病(AIDS)是危害人类健康的一大杀手。目前对艾滋病病毒(HIV)的动态研究是AIDS研究领域的热门问题。HIV病毒动态研究可以给AIDS致病机理以及药效评估提供重要的依据。本文首先对描述HIV病毒纵向动态变化的随机系数常微分方程模型提出了两步估计法。在第一步中,我们对非参数混合效应模型利用局部多项式核估计得到状态变量及其导数的值,第二步中我们把第一步中的估计值代入随机系数常微分方程,并提出极大拟似然估计法得出常微分方程中未知参数的估计值。并且,我们对总体参数的估计推导了大样本性质。经过模拟研究和临床AIDS数据的实例分析,我们证实了该方法良好的估计效果和实用价值。同时,我们指出这里的两步估计法并不仅可用于HIV动态研究,还可用于流感病毒、药物代谢动力学等其他领域的随机系数常微分方程模型。基因芯片(也称作DNA microarray)技术可以同时测量大量基因的表达值。基因调控网络是基因表达值数据的一个重要研究内容。常微分方程系统是研究基因调控网络的常用工具之一。本文第三章研究了用于常微分方程系统的基于数据扩张法的拟最小二乘估训(DA-PLS)。我们推导了估计值的相合性,渐近正态性以及均方误差,并在最小化参数估计均方误差的前提下,给出了选取窗宽和扩张数据样本量的建议。对于基因数据的重复观察次数较少,即样本量小的缺憾,我们认为数据扩张法可以从原始数据中挖掘出更多的信息,提高估计效果。在模拟和数据分析中,我们将该方法用到基因调控网络中去,证实了该方法的估计值确实比拟最小二乘估计法(Liang & Wu 2008)有明显改进。本文在理论和模拟双方面都说明了DA-PLS法的优点。当然,DA-PLS法也可用于其他领域的常微分方程系统。此外,基因芯片数据研究中的一个重要方面是检验在不同条件下表达值有显著差异性的基因。而基因表达值的方差估计对这一检测起着重要作用。本文的第四章研究了重置模拟反推法(PSIMEX)估计microarray数据方差的大样本性质,包括参数和非参数方差函数两种情形。对参数情形,我们研究的问题更具一般性。我们研究了在不能确定使用的模型是否为真实模型的情况下,参数估计相合到何值,以及是否具有渐近正态性等问题。对于非参数方差模型,我们研究了PSIMEX核估计的渐近正态性,给出了最优窗宽的选取。并且,利用蒙特卡罗法,我们构造了参数方差模型中参数的置信区间以及非参数方差模型下方差函数的联合置信带。通过模拟,我们验证了置信区间和置信带令人满意的效果。同时,我们分析了两个microarray实际数据来说明PSIMEX法估计方差的实用性。另一方而,纵向数据是多个个体随着时间推移重复观察的数据,在生物、医药、农业等众多领域出现。混合效应模型是研究纵向数据的一个常用工具。然而常用的随机效应和误差正态分布的假设不具有稳健性。另外,非正态分布假设下,随机效应及误差的高阶矩估计也是值得关注的一个问题。在第五章,我们提出了用于纵向数据的混合效应模型的矩估计方法。该方法在随机效应和误差非正态性分布时,能够对模型参数以及随机效应和误差的高阶矩作估计。我们证明了矩估计具有强相合性和渐近正态性。经模拟,我们核实了该方法的估计效果,并构造了参数的置信区间的置信域。