网络连接的估计与聚类统计研究

来源 :龙宇航 | 被引量 : 0次 | 上传用户:googto0726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集能力的提升,专注于分析数据与数据之间相关性的网络数据研究越来越受到统计学家的重视。在网络数据中,将数据定义为节点(nodes),数据与数据之间的相关性定义为连接(edges or links)。网络连接是网络数据相比于传统数据的最重要的区别,所以对网络连接建模一直是网络数据研究中的热点问题。数据量大,维度大,关系复杂是网络数据的重要特点,这使得每个节点往往同时具有同质性(Homogeneity)和异质性(Heterogeneity)。同质性表明节点之间的性质相同,异质性表明每个节点具有自己独立的性质。刻画每个点的同质性和异质性是网络数据模型研究的关键。此外,网络结构的另一特点就是多元化,其中包括传统的单模网络,双模网络以及动态网络。这篇博士论文分别对以上三种网络的连接建模。建立的模型兼顾了节点的异质性和同质性。整体来看本文分为四大部分,第一部分从复杂网络的角度,研究由双模网络和单模网络构成的混合网络的异质性与同质性。第二部分从固定效应模型的角度,分析单模网络节点的异质性与同质性,第三部分从非参数的角度,分析单模网络节点的异质性与同质性。第四部分从动态网络的角度,分析动态网络之间的同质性和异质性。第一章主要介绍了本文的研究背景与选题意义,文献综述以及文章的整体框架。在第二章中,主要介绍了本文所需的一些基础知识,包括网络数据,混合模型和同质追踪的基本定义,以及模型推断的方法。第三章以混合网络连接为切入点。单模网络和双模网络作为两种常见的网络结构,目前对于这两者的研究都是相互独立的。但通常在双模网络中的单一行动者集内部会有单模网络结构,而这种单模网络结构会对双模网络连接产生影响。本文创新性地将两种网络结合在一起进行研究。利用Rasch模型表示双模网络的生成方式,进而提出全新的混合网络组群Rasch模型(Group Rasch Mixture Network Model),简记为GRMM。GRMM中的组群结构体现节点的同质性,而单模网络对双模网络的影响体现了节点的异质性,这表明GRMM同时考虑了节点的同质性和异质性的特点。基于模型对应的理论性质,本章从假设检验,组群总数选择和连接预测三个维度来对GRMM进行统计推断。由于模型中单模网络的影响会使得估计变得更为复杂,传统的EM算法不再适用,为此本文提出了改进的EM算法来估计GRMM。在组群总数选择时,由于双模网络的连接不但受到行动者集一中对应节点的组群影响,还受到该节点在单模网络中邻居的组群影响。针对这种情况,本文改进了传统的BIC方法,使用BIC的方法来选择组群总数。同时,我们利用假设检验的方法来判断两个网络之间的相关性。本章最后给出了适用于GRMM的连接预测方法。第四章以单模网络连接为切入点。单模网络是目前网络数据研究的热点。现有的单模网络统计建模分为两类,一类是用模型刻画网络数据的异质性;一类是用模型刻画网络数据的同质性。但是对于这两种性质融合建模的研究还有所不足。本章将两种性质相互融合,以限制条件更少的固定效应模型为初始模型,利用基于数据驱动(data-driven)的同质追踪法挖掘数据中的同质结构。传统的同质追踪方法仅适用于线性模型,本章将其推广至广义线性模型,并利用BIC的方法选择同质追踪法中的超参数。最后给出估计量的相合性和渐近正态性。利用理论性质,本文通过假设检验的方法,进一步挖掘了网络中的内在结构:第一,利用假设检验的方法挖掘有向图中的无向子图;第二,利用假设检验的方法判断网络中是否还有剩余的同质结构,进而从检验的角度提出一种超参数选择的方法。最后再用模拟对比实验的方法证明了本章提出方法的有效性,并将其应用于实际数据中。第五章以节点协变量对网络连接的影响为切入点。网络节点的协变量对网络连接的产生有很强的解释意义。但是由于理论上的复杂性,最近几年才逐渐有文章将网络节点的协变量应用到网络固定效应模型中。而且目前这些文章都将网络节点的协变量以线性形式加入到模型中。通常情况下,线性假设难以满足,本章将协变量以一种假设条件更弱的非参数形式加入到模型中,进而提出了网络数据非参数异质模型。本章将第四章中的网络数据同质结构加入到非参数异质模型中,更突出了异质性与同质性相结合的建模想法。结合极大似然估计,样条估计以及同质追踪法,提出带有同质结构的非参数异质模型的参数估计以及其对应的理论性质。在样条估计和同质追踪的估计过程中都会产生超参数,但是由于网络数据之间的相关性,传统的基于相互独立数据的交叉验证法将失效。这里结合网络数据的特殊结构,提出了一种全新的交叉验证方法来选择估计过程中产生的超参数。第六章以动态网络为切入点。动态网络是目前比较受关注的热点问题。结合第四章提出的固定效应模型来对动态网络进行建模。为了体现动态网络在时间上的相关性,本章将同质结构加在了时间维度上,进而提出了带有同质结构的动态网络模型。在模型估计上,提出了一种对多维向量进行同质追踪的三步估计法,来找到同质结构并准确估计出模型的各个参数。本章最重要的贡献是建立了该模型下完整的理论性质。体现了考虑动态网络对模型参数收敛速度的提升,以及考虑同质结构对模型参数收敛速度的提升。最后,在第七章对本文进行了总结并对潜在的一些研究方向进行了阐述。
其他文献
打渔张泵站是胶东调水工程的首级泵站,于2020年4月初次投入运行。该泵站建设标准高,自动化程度高。为了将打渔张泵站机电设备故障率降至最低,保证工程的安全稳定运行,文章针对可能产生故障的原因进行了分析,提出具有针对性、可操作性、有效性的具体对策,同时对打渔张泵站近5年的发展方向进行了展望,为管理者提供参考借鉴,对行业内同类型泵站的高质量运维管理工作提供启迪。
期刊
近年来,越来越多的研究强调了高管的人格在影响公司政策和结果方面的重要性。经济学、金融学和管理学的研究也开始探讨高管的人格特征与公司战略选择和公司绩效之间的关系。然而,高管人格效应研究的一个根本挑战是人格测量的成本和难度。测量人格特质通常需要使用昂贵的工具或详细的面谈,而这些对于大量的高层管理人员来说很难实施。因此,本文的目的之一是提出一种替代方法。对于董事会在聘用高管时,哪些高管特质被视为重要因素
学位
在新时期的市场环境下,我国的工程建设行业的成熟度和市场化程度不断提高。然而,机遇与挑战是并存的,市场越来越透明。这意味着建设工程企业之间的竞争越来越激烈,无论是从管理角度还是控制成本的角度来说,建设工程企业都需要通过提升自己的企业竞争力才能在新的市场环境中立足、发展。工程造价咨询业近年来蓬勃发展,越来越多的工程造价咨询企业能够根据建设工程企业的自身情况、结合市场因素,并以项目为抓手,通过专业的工程
学位
“贫困代际传递”的问题一直以来都倍受关注。贫困代际传递是目前消除贫困事业中倍受重视的重大挑战。随着2020年绝对贫困的消除,相对贫困、多维贫困的解决成为当务之急。此中,贫困代际传递是我国居民贫富差距逐渐拉大的重要原因之一。本文回顾整理了贫困、贫困代际传递、教育健康和贫困代际传递的关系等方面的相关文献,做好机制分析。教育能够从传授知识技能、提升学习能力、优化就业状况、摆脱贫困文化、修身养性、提升修养
学位
目的 将4种不同涂料涂覆在相同紧固件上,在相同测试条件下研究它们的表面形貌、耐腐蚀、抗疲劳等性能,最后从中筛选出可替代传统HW-A的潜在涂料,进一步丰富现役钛合金紧固件表面涂层材料品种。方法 利用3D共聚焦、电化学阻抗谱、中性盐雾、加速环境谱等方法评价紧固件表面涂层性能,研究每种涂层的截面形貌、表面形貌、粗糙度、抗腐蚀、加速疲劳寿命等,然后综合分析其关键性能。结果 采用3D共聚焦、电化学阻抗谱、中
期刊
线上互动健身社群从2015年开始呈现快速增长,这与互联网的高度发展、全民健身意识和需求发展、健身市场的发展有着紧密的联系。首先,在科学技术层面上,随着云计算、大数据、5G技术、人工智能等不断研发,从2008年6月底开始中国网民规模以2.53亿跃居世界第一,社会的联网程度大大提高,市场规模开始成为互联网产业崛起的重要基石,为社群经济提供了发展的良机。第二,从个人角度来看,根据马斯洛需求体系,随着人民
学位
<正>钛合金是具有重量轻、比强度高,以及耐氧化、耐腐蚀性优秀等性能的耐热合金,由于这些特性使其在航空航天,化工以及医疗等领域中得到了广泛的应用。但钛合金热传导率较低,在切削中产生的切削热很难通过切屑或工件本身传导出去,切削热大部分堆积在刀具上,极易导致刀具刃口磨损和被加工材料熔覆黏结,所以也被称为难加工材料。针对钛合金的难加工性深入分析,黛杰开发了最新涂层材料DS1。
期刊
目的:探讨妊娠期肝内胆汁淤积症(Intrahepatic cholestasis of pregnancy,ICP)患者甾醇27A羟化酶(Sterol 27A-hydroxylase,CYP27A1)基因突变与胆汁酸水平变化的相关性。方法:课题组前期收集在江西省妇幼保健院产科住院分娩的151例ICP及1029例非ICP孕妇外周血,提取基因组DNA,设计CYP27A1基因引物行PCR扩增后进行测序挖
学位
随着社会的发展,城市化进程的加快,我国对城市交通的需求在不断增长。地铁作为常用的交通工具,对于缓解交通需求、扩大城市交通网络方面发挥着重要作用。盾构法是一种修建地铁隧道常用方法,效率高且便于管理,但在盾构施工建设中总是会对周边环境造成一定的影响,尤其是引起的地表沉降问题,对于城市的建设非常不利,容易导致建筑物地基不牢固,沉降量过大时还可能造成设施的变形开裂甚至坍塌。因此,研究盾构施工过程对于地层变
学位
对比了-196℃、-163℃、-100℃、-40℃、20℃五个温度点304L和304LN的抗拉强度、屈服强度、弹性模量、拉伸率、收缩率、线膨胀系数、材料尺寸稳定性等性能参数。试验结果表明304L和304LN的抗拉强度、屈服强度、弹性模量随着温度降低而提高,拉伸率、收缩率、线膨胀系数随着温度降低而减小。304LN的抗拉强度、线膨胀系数与304L相近,但其屈服强度和弹性模量均明显高于304L。304L
期刊