论文部分内容阅读
随着科学的持续进步和技术的日新月异,矩阵型数据越来越普遍.在本文中我们主要关注其中两种类型的矩阵数据.第一种类型是连续型的矩阵数据,即矩阵的元素是实数.连续型矩阵数据的表示能力强大.首先它能够表示权重网络数据,比如路由器之间的数据交换量,网页之间超链接的强度等等.其次,传统的多元统计分析中的设计矩阵通常也可以看作是行独立的矩阵数据.最后,我们常见的图像,视频,生物信息等数据也可以看作矩阵数据.第二种类型是二值离散型的矩阵数据,矩阵的每个元素非0即1,这种类型的矩阵数据通常用来表示网络数据.网络指的是通过各种各样关系相互连接的个体集合,其中个体称为节点,两个节点之间的连接称为边.比如在计算机领域中,互联网上各个路由器可以看作节点,它们之间的数据交换可以看作边.万维网中各个网页可以看作节点,网页之间的超链接可以看作边.在实际当中的电力网络,交通网络,社交网络,生物信息网络以及金融贸易网络等都是典型的网络数据.网络数据的矩阵表示称为邻接矩阵,邻接矩阵中的元素表示两个节点之间的连接关系,如果两个节点之间有边,那么该元素取值为1,反之,则为0.总之,矩阵型数据强大的表示能力使得其适用范围非常广泛,是一类值得深入研究的数据类型.本文的第二章考虑的是高维连续型矩阵数据在只有一个观测时的统计推断问题.我们在矩阵变量正态分布的可分协方差结构中引入因子效应,提出了矩阵正态因子模型(MVNFA).对MVNFA模型,我们首先证明了模型的可识别性,给出了估计方程的推导和化简,以及参数估计的迭代算法.接下来,我们证明了参数估计的相合性和渐近正态性.最后通过模拟研究验证了理论结果,并通过实际数据的分析说明了模型的应用价值.本文的第三章考虑的是二值离散型矩阵数据(网络数据)中节点的分类问题.数据包括个体的类标签,预测变量以及个体之间的网络结构三部分信息.研究目的是将网络结构引入传统的分类问题(即将类标签作为响应变量).为此,我们提出网络逻辑回归模型(NLR),该模型考虑了从网络当中获得的信息.NLR模型假设两个节点是否相连受类标签和二者预测变量间相似性的影响.此外,采用传统的LR模型利用节点属性预测类标签.接下来,在NLR模型下,我们讨论了四种关于网络结构的连接构成的有趣情况.此外,在不同的网络稀疏性下,我们导出了预测准则的近似性质.最后,为了说明该模型的有限样本性质,我们进行了模拟研究,同时对一个真实的新浪微博数据进行了分析.