论文部分内容阅读
多源数据融合是解决很多现实问题的一种重要方法,已被用于解决医学、地理科学等多个研究领域。多源数据融合方法起源于20世纪60年代,可以将不同来源的数据整合到一起,再对整合后的数据进行统计分析。相较于单一数据源模型,多源数据模型具有更多的原始信息,在数据推断方面表现更加优良。文献中的方法考虑到生物医药学等领域研究中所受到的经费等因素限制,大多是将多源小规模数据进行融合,其不能适应多源大数据背景下的很多实际问题。另一方面,目前对于多源数据融合的假设检验问题的研究相对较少,并且已有的方法在不同样本量以及各节点方差的情形下表现不够稳健。因此,本文将结合统计机器学习算法,着力于解决前述的两个问题。随着数据挖掘技术的不断提升,数据越来越容易获取,因此文章结合子抽样(Subsampling)方法考虑了多源大数据融合方法的构造问题。本文考虑到大规模数据分析面对的高昂计算成本和存储代价,基于均匀抽样和杠杆得分(Leverage Score)重要性抽样等方法,提出了一种多源大数据的子抽样融合方法,并借助Monte Carlo方法与单节点推断方法进行了比较研究,验证了本文所提出方法的优越性。其次,本文借助参数bootstrap检验方法,将其应用于多源数据融合的检验问题。蒙特卡洛模拟的结果表明,参数bootstrap检验在控制第一类错误概率方面要优于文献[1]中提出的检验方法,在设置的不同的样本数量和各节点不同的方差大小的情形下皆具有良好的检验效果。