论文部分内容阅读
属性数据可描述很多问题,如人的性别,文化程度的高低。属性数据分析方法的应用几乎已经渗透到各个领域,包括社会科学,心理科学,生物医学,教育,市场营销,金融信用评估等。属性数据通常反映在列联表资料中,故研究列联表资料的分析方法至关重要。 国内外关于四格表的独立性假设问题的研究方法主要有Pearson卡方检验、Yates连续校正检验、Yule无条件检验、Fisher精确检验和似然比检验等;针对多个四格表的研究方法主要有BD检验、CMH检验和似然比检验等;在构造模型方面主要有分层对数线性模型和logistic模型等。关于四格表的无条件检验的精确功效分析已有研究,但它和条件检验的渐近功效分析没有进行过完整的研究;针对多个四格表的两步似然比检验也鲜有研究;同时,基于三维及以上列联表的线性信息模型更是少有涉及。本文主要从信息恒等式的视角对比研究四格表独立性假设的条件检验和无条件检验的功效分析,并将基于信息恒等式的两步似然比检验推广到备择假设,最后提出线性信息模型的扩展。 本文可能的创新点主要有以下几个方面: 第一,从信息恒等式的视角,重新对似然比检验、Fisher精确检验和Yates卡方检验进行统一的功效分析,即寻找合适的拒绝域以构建更敏感的检验;基于信息恒等式的不变性考察Yule无条件检验,表明用Yule检验批判Fisher精确检验的保守性存在逻辑上的缺陷。 第二,从信息恒等式的视角,解释两步似然比检验优于BD检验和CMH检验的原因,并基于扩展的信息恒等式,将两步似然比检验从“等优势比”发展到“不等优势比”。 第三,深入研究对数线性模型与线性信息模型的联系,得到两者的检验结果的等价关系,即利用对数线性模型的检验结果能直接得到线性信息模型的检验结果,反之亦然;从模型简洁度和解释各分解项的难易程度两方面进行模型对比,表明虽然线性信息模型在简洁度上优于对数线性模型,但解释线性信息模型中的高维条件互信息更困难。 第四,对四因子条件互信息进行分解,从而将信息恒等式推广到四维;并基于此信息恒等式提出四步似然比检验,比较总检验与四步检验的敏感度。用分解式代替线性信息模型中四因子条件互信息,得到线性信息模型的扩展形式。用线性信息模型的扩展形式解决高维互信息解释难的问题。