论文部分内容阅读
统计图模型用于解释变量间的相关关系和因果关系。近年来,统计图模型在生物医学以及计算机等方面有了较快的发展,针对于临床药学、流行病学,以及目前非常流行的数据挖掘等方面都有发展与应用。 统计图模型根据变量间的关系可以分为马尔科夫网络图(Markovian network)和贝叶斯网络图(Markovian network),马尔科夫网络图适用于变量关系为单纯对称相关关系的模型,在图中变量间的边以无向边来表示;贝叶斯网络图中的变量则是以有向边来表示,对应图中变量间的边为有向边。通常来说,马尔科夫网络图常常表示的是多变量间的对称相关关系,贝叶斯因果因果网络图则表示的是变量间的因果关系,在图模型理论中前者为无向图(Undirected graphs),后者称为有向无环图(Directed acyclic graphs)。对于实际研究当中,常常可以通过观测数据确定两变量的相关关系,但对于因果关系,由于缺少先验分布和确切信息而无法定性为因果关系的情形,因此图模型中变量间即会有无向边也会有有向边,对于同时包含这两种相关关系的统计图模型我们称之为链式图(Chain graph)。相对于前两种统计图模型,链图模型有着更复杂的条件独立性关系,但同时又是非常普遍与一般的图模型。 统计图模型的可压缩性指的是在模型中针对某一变量或者变量集,统计性质可以由全局投影到局部而保持不变。模型的可压缩性可以根据统计性质的不同分为估计可压缩性、条件独立性可压缩性和模型可压缩性。估计可压缩性表示的是变量的极大似然估计(MlE)在全局图中的与压缩子图中相等。对于一个变量u来说: 估计可压缩性相对于三种估计来说要求的条件最为严格,不仅需要一致的条件独立性,还需要在数据上严格精确。条件独立性可压缩性表示的相对于变量间的条件独立性子图与全局图上有着统计性质一致的关系,我们用I(Gv)表示图Gv上的条件独立性限制,则条件独立性可压缩性可以写成: 条件独立性可压缩性与估计可压缩性存在着一定的关系,并且满足可压缩性的条件要较估计可压缩性弱一些。除了条件独立性可用压缩性之外,还存在着模型可压缩性。模型可压缩性表示对于给定的变量或者变量集,压缩后的自己所构成的部分同样保持与整体相同的统计性质,也就是说由子集所取变量分布与整体中对应集合所取变量的分布一致,即对于p(x)∈M,我们有p(xR)∈MB。模型可压缩性可以写成 模型可压缩性可以导出条件独立性可压缩性,可以证明在离散分布和高斯分布中与条件独立性可压缩性保持一致关系。 本文第二章介绍了链图模型的块估计可压缩性,具体来说,§2.1节介绍了估计可压缩性的背景知识与发展过程,§2.2节罗列与解释了块估计可压缩性的符号与概念,§2.3节阐述了链图模型分块的估计可压缩性理论,并推导证明了可压缩性与c可移除性的充分必要条件。 第三章论述了链图模型的链式块条件独立可压缩性与模型可压缩性,同时阐述了三种可压缩性的关系并给出算法寻找满足估计可压缩性的最小链式块集合。其中§3.1节介绍链图模型条件独立可压缩性与模型可压缩性的背景知识,s3.2节表述两种可压缩性的相关概念与内在关系,并解释了与此部分内容相关的一些符号。§3.3节论证了链图模型的条件独立性可压缩性与t可移除性的关系以及在特定分布的假设下与模型可压缩性的等价关系。§3.3节论述了链图模型块估计可压缩性、块条件独立性可压缩性以及模型可压缩性的相互关系,并针对块估计可压缩性,给出了寻找满足估计可压缩性条件的最小集合的算法,通过图例得以验证。