论文部分内容阅读
复杂性状的家庭聚集性分析是遗传流行病学研究的第一步,是随后的分离分析确定遗传模式以及连锁分析定位致病基因的基础。判断疾病表型是否存在家庭聚集性,了解家庭聚集的模式以及识别家庭聚集的因素来源可以为随后的病因研究提供重要的方向和线索,但目前关于家系资料或病例对照家系资料的统计分析方法仍需要进一步研究。本课题主要研究不同性状表型(主要包括数量性状,质量性状和删失性状)家庭聚集性分析方法,旨在为流行病学者提供一系列实用、有效、方便的疾病家庭聚集性的统计分析工具。 研究主要内容包括家庭相关的测量和遗传方差分量模型两部分。 1.家庭相关的测量方法 Pearson相关系数可用于测量数量性状的家庭相关。对家系成员的数量表型,拟合多变量均数和相关系数的边际回归模型,通过构建不同的关联结构设计矩阵,可灵活检验各种家庭相关模式的假设。使用二阶广义估计方程(GEE2)的方法可以得到回归系数和关联参数的稳健估计。以 327 个身高核心家系资料为例,探讨了 GEE2 方法的实际应用。 对二分类性状,我们提出一种病例对照家系资料的分析方法。在 logistic回归模型框架下,联合条件模型和边际模型的方法。同时建立先证者表型的均数、先证者表型条件下亲属表型均数的边际模型,和亲属表型关联的边际模型。条件OR 和边际 OR/相关系数分别用于测量先证者和亲属间、亲属间疾病表型的家庭相关。边际相关系数模型参数估计方法同数量性状;边际 OR 模型用替代 logistic回归(ALR)算法进行参数估计。卵巢癌和肝癌的病例对照家系资料分析显示该法在估计危险因素和疾病的关联方面,因充分利用信息而有较高效能;通过灵活修改关联结构设计矩阵,便于检验各种家庭相关模式的假设;该法可用于任意家系资料结构;以及可利用现有标准 GEE2 软件轻松实现等优点,非常方便流行病学研究者的实际应用。同时肝癌的家庭相关分析显示,肝癌病例亲属的疾病风险是对照亲属的 3 倍多,乙肝病毒(HBV)感染对肝癌的家庭聚集性有很大的影响。 交叉比可用于估计生存时间资料的家庭相关。个体的发病年龄可看作具有删失特性的生存时间。对病例对照家系设计资料,根据先证者发病年龄,建立亲属发病年龄的分层 Cox 模型,先证者和亲属间发病年龄的对数交叉比可作为回归系数的一部分通过最大偏似然估计得到。多亲属资料时,多元失效时间的边际模型 1<WP=5>2004 年复旦大学博士学位论文 中文摘要用于考虑亲属间的相关。上述方法运用于肝癌病例对照家系资料,显示母子间发病年龄家庭相关高于父子和同胞。 2.遗传方差分量模型 在广义线性混合模型(GLMM)的框架下,构造数量性状和质量性状的遗传方差分量模型。假设遗传因素和环境因素共同作用于疾病表型。其中,可以测量的环境因素和遗传标记可看作固定效应,无法测量的遗传因素(又可分解为遗传加性效应和遗传显性效应(和同胞共享环境效应混杂))和家庭教养环境(又称家庭共享环境效应)可看作随机效应。马尔可夫链蒙特卡罗法(MCMC)用于回归系数和随机效应方差分量参数的估计。数量性状时,模拟研究显示 MCMC 法可得到近似一致的参数估计。同时和基于似然的限制性最大似然估计法(REML)相比,MCMC 方法在参数推断方面有更强的优越性,在小样本情况下可得到更稳健的参数估计。质量性状时,由于方差分量的多参数问题,在参数估计过程中使用一种循环估计方法。小样本情况下,采用数据膨胀方法。模拟研究显示MCMC 法可得到近似的参数估计。将上述方法应用于肝癌的病例核心家系资料,结果显示较小的遗传加性效应和同胞共享环境效应。对删失性状,我们扩展了Cox 多脆弱模型到 Cox 方差分量模型,并对 MCMC 方法用于该模型的参数估计进行了初步探索。将该法应用于肝癌的病例核心家系和扩展家系资料分析显示,发病年龄的遗传加性方差和同胞共享环境方差分量有统计学意义,且同胞共享环境方差分量较大,提示存在未知的遗传显性效应或同胞间共享环境因素的作用。