多源数据融合统计新方法及其应用研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:sinoerli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多源数据融合是解决很多现实问题的一种重要方法,已被用于解决医学、地理科学等多个研究领域。多源数据融合方法起源于20世纪60年代,可以将不同来源的数据整合到一起,再对整合后的数据进行统计分析。相较于单一数据源模型,多源数据模型具有更多的原始信息,在数据推断方面表现更加优良。文献中的方法考虑到生物医药学等领域研究中所受到的经费等因素限制,大多是将多源小规模数据进行融合,其不能适应多源大数据背景下的很多实际问题。另一方面,目前对于多源数据融合的假设检验问题的研究相对较少,并且已有的方法在不同样本量以及各节点方差的情形下表现不够稳健。因此,本文将结合统计机器学习算法,着力于解决前述的两个问题。随着数据挖掘技术的不断提升,数据越来越容易获取,因此文章结合子抽样(Subsampling)方法考虑了多源大数据融合方法的构造问题。本文考虑到大规模数据分析面对的高昂计算成本和存储代价,基于均匀抽样和杠杆得分(Leverage Score)重要性抽样等方法,提出了一种多源大数据的子抽样融合方法,并借助Monte Carlo方法与单节点推断方法进行了比较研究,验证了本文所提出方法的优越性。其次,本文借助参数bootstrap检验方法,将其应用于多源数据融合的检验问题。蒙特卡洛模拟的结果表明,参数bootstrap检验在控制第一类错误概率方面要优于文献[1]中提出的检验方法,在设置的不同的样本数量和各节点不同的方差大小的情形下皆具有良好的检验效果。
其他文献
以季铵化壳聚糖(OCS)和层析硅胶为原料,制备了不同硅胶含量的多孔膜。用傅里叶变换红外(FTIR)和扫描电镜(SEM)对多孔膜的结构和形貌进行表征。同时,考察了层析硅胶的用量对多孔膜的含
采用种质扩增、组配群体、回交改良、物理诱变等育种手段,选育出了太育一号、太育三号等玉米自交系30份,通过人工接种,对矮花叶病的抗性进行了鉴定,得出高抗玉米自交系10份,抗病自
目的探讨宁波市感染性腹泻的病原菌构成和耐药性。方法采集2008-2011年宁波市11个县(市、区)肠道门诊就诊的急性腹泻病患者的粪便标本进行病原学检测。结果检测标本9256份,阳性
目的 观察养胃颗粒对实验性胃溃疡大鼠溃疡愈合的疗效,并探讨其可能的作用机制.方法 采用醋酸致胃溃疡大鼠模型,并分别设立正常对照组、模型组、养胃颗粒低中高剂量组以及雷
制造业作为我国实体经济的主体,是推动我国经济乃至全球制造业持续快速增长的重要引擎,其在历史和未来交汇的新起点,肩负着我国从“中国制造”向“中国创造”,从“制造大国”向“制造强国”蜕变的新使命。然而弱自主创新、高能源消耗、强污染排放使得我国制造业患上“大而不强,全而不精,高效而不环保”的通病。因此,以技术创新为核心的绿色革命必势不可挡,从而推动制造业谋求高质量绿色转变。但我国制造业门类众多,其在行业
主体功能区战略是生态文明制度的重要组成部分,是国家国土空间规划体系的顶层设计,在市域国土空间规划编制工作中,科学合理的划分和管控生态空间是对主体功能区战略的具体落