基于多源数据的整合无监督学习

来源 :厦门大学 | 被引量 : 0次 | 上传用户:alucardlr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,数据的产生、存储方式发生重大变革。数据来源越来越多样化。一方面,数据的主体、格式等越来越丰富,另一方面,数据的测量维度也不断拓宽。多源数据累积成海量数据信息。由于数据本身的复杂性,大量数据无标签、无类别。对海量数据进行标签,时间久、成本高、异常困难。因此,如何有效地利用多测量维度数据,融合多个数据集信息进行无监督学习是目前统计研究的重要方向之一。主成分分析与图模型是无监督学习的重要方法。主成分分析作为重要的降维技术之一,随着数据分析维度的不断增大,重要性日益凸显。图模型是研究变量间综合关系的重要工具,在基因组数据分析、文本分析等领域应用广泛。虽然主成分分析与图模型近些年来得到广泛发展,但针对“噪音”较大的高维小样本数据,单一数据集分析的结果往往具有不稳定性且模型结果再现性差。很多有监督学习框架下的文献指出,整合分析能够将多个数据集信息、多种测量维度信息进行融合,在高维数据处理中其模型表现显著优于单一数据集分析。考虑到数据呈现出的多源性、无标签性以及无监督学习和整合分析的重要性,基于对整合分析、主成分分析以及图模型文献的梳理与概括,本文将从以下几个方面对整合无监督学习进行研究:(1)本文提出了多数据集整合稀疏主成分分析方法(iSPCA,integrative Sparse Principal Component Analysis)。为了有效地剔除数据噪音并提高结果解释性,稀疏主成分分析成为了主成分研究的一个重要方向。由于数据维度高、样本量小等特点,针对单一数据集的稀疏主成分分析结果并不令人满意。本文整合具有相似分析目的的多个数据集进行稀疏主成分分析,以鼓励数据集间相互借助信息。本文采用惩罚的方式正则化估计并选择重要主成分因子载荷。并通过差异惩罚鼓励数据集间因子载荷的相似性,以提高模型估计和变量选择的准确性。本文给出了所提模型的统计性质、算法,并通过大量的模拟验证了 iSPCA方法的表现。最后本文将该方法应用于实际的癌症分析中。(2)本文提出了多数据集近似单因子整合图模型(SFIG,approximate Single Factor Integrative Graphical model)。在一些情况下,由于共同因子的存在,变量之间的条件结构关系稠密且不具解释性。近似单因子图模型剔除变量共同因子后建立图模型,可剔除变量之间的伪依赖关系。但在近似单因子图模型中,待估参数众多,为提高模型参数估计与网络结构构建效果,本文提出了多数据集近似单因子整合图模型。采用惩罚的方式同时估计不同数据集的因子载荷和异质成分的精度矩阵。本文针对该模型提出了有效的算法,通过大量的模拟实验验证了模型有限样本下的有效性。最后,本文将SFIG模型用于分析乳腺癌数据。(3)本文提出了核心变量的多测量维度整合图模型(MIGM,Multidimensional Integrative Graphical Model)。随着数据采集技术的发展,多测量维度信息收集成为可能。除核心变量外(所关心变量),针对同一样本同样可以获得其他辅助信息。本文以基因表达数据为例,研究如何借助基因表达控制变量还原部分基因表达数据信息以构建更为精确的基因表达图结构。本文根据辅助变量与核心变量间的调控关系,提出了新的协方差矩阵估计方法,并采用数据驱动的权重进行图模型的构建。所提方法具有直观意义,适应于多种调控情形。本文给出了 MIGM的统计性质,并通过大量的模拟以及乳腺癌数据实证分析说明了 MIGM在有限样本下的模型表现。(4)本文提出了基于条件得分匹配损失的多测量维度整合图模型(iSME,multidimensional integrative graphical model based on the conditional Score Matching Estimator)。一些情况下,我们关心给定辅助变量时核心变量的网络结构以及辅助变量对核心变量的直接影响。已有文献或计算复杂或不能估计辅助变量对核心变量的直接影响,存在一定的局限。本文基于条件分布整合多个测量维度数据,采用正则化的条件得分匹配损失函数估计给定辅助变量时核心变量的网络结构以及辅助变量对核心变量的直接影响,方法直观且计算简便。本文给出了所提模型的统计性质、算法,并通过大量的模拟验证了 iSME方法的表现。最后本文将该方法应用于实际的癌症分析中。
其他文献
在中国特色社会主义市场经济建设不断完善的过程中,国有企业一直以来都是我国经济改革的重点。虽然在经历了放权让利、两权分离、政企分开以及建立现代企业制度等阶段以后,在
视觉问答(Visual Question Answering,VQA)是近年兴起的一项人工智能研究热点。它指的是模型根据给定的图像信息回答人类所提出的问题。这些问题的内容涵盖了物体识别、场景
滤波天线集辐射功能和滤波功能于一体,因此有利于减小通信系统尺寸,降低对系统中滤波器的要求,提高整体效率,减小成本。同时,滤波天线能够有效地减小工作在相邻频带、位置相
市场竞争日益激烈下的任何企业都不可能在所有领域都保持竞争优势。为了获得某一方面的领导优势,公司必须做出一些权衡。因此,越来越多的制造企业将重点放在产品开发、生产、
卡拉奇目前面临两个突出问题,即水资源和能源短缺。这不仅影响该城市的生活质量,而且影响商业和工业部门。卡拉奇是巴基斯坦的金融中心、最大的税收来源地和人口最多的城市。因此,在卡拉奇——信德省的省会,一些消费者正在运用太阳能光伏发电系统进行发电,并为他们自己以及其他消费者提供饮用水。在这种情形中,这些人被称为产销者。显然,他们的业务不仅有利于生产和节约能源,而且有利于获得饮用水。不过,人们对有关这些系统
学位
僵尸网络是一种由主控端和大量被控端构成的活动网络,攻击者可以利用该平台对目标系统发动分布式拒绝服务、恶意软件下载和网络挖矿等攻击。通常情况下,僵尸网络会使用Domain-Flux技术来躲避检测,而域名生成算法(DGA)则是该技术的具体实现。攻击者可以利用域名生成算法在短时间内快速生成大量DGA域名。传统方法利用机器学习算法和深度神经网络来检测DGA域名,然而这些模型最终的检测效果不佳。鉴于此,本文
学位
锚杆支护已经成为岩土工程领域必不可少的支护方式,普通锚杆经常发生拉断失效现象,无法适用于发生大变形失稳破坏的岩土工程。鉴于此,何满潮院士于2010年设计并研发了具有负
P2P网络借贷行业作为互联网金融行业最重要的分支,满足了投资者和借贷者的多样化求,提高了闲置资金的使用效率。P2P行业的发展经历了萌芽期、快速增长期、爆发期,其中也暴露
并购重组是资本市场资源配置的重要手段。随着上市公司并购重组交易数量和金额的增加,高溢价并购带来是难以实现的高业绩承诺和商誉大减值,已经严重阻碍了上市公司发展。在众
过去几十年中国经济经历了一段高速增长时期,但目前依靠资源驱动的增长方式难以为继,而创新能为经济增长提供持久动力,因此创新对于经济转型和发展具有非常重要的意义。在当