基于联合张量分解网络的大数据高效挖掘方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiner1312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量多维数据的涌现与积累促进了机器学习、模式识别、计算机视觉等人工智能领域的迅速发展。然而,现有的数据分析工具主要依赖于向量化处理方式,很大程度上破坏了原始数据的结构信息,导致大数据的分析过程存在众多问题,如内存负载高、计算繁杂以及模型冗余等。张量在多维数据的高效建模、简约表示以及关联分析等方面存在众多优势。因此,选定联合张量分解网络作为主要研究对象,在大数据的多维度联合分析、高效计算、模型低秩优化等方面开展理论、技术以及算法的系列研究。主要研究内容和创新成果如下:首先,针对大数据联合分析的需求,提出了联合张量分解网络,并在此基础上研究了大数据稀疏性问题以及安全性问题。具体来说,针对大数据形式多样、特征高维、高耦合、强关联等特性,现有向量化处理方式难以捕获多维数据内部关联的问题,提出了基于联合张量分解网络的高阶高维数据联合分析与特征提取方法,充分发挥了张量网络在多维数据分布式表示以及维度约减方面的优势,在维持数据的原始结构与全局信息的同时,实现特征维度的百倍约减。进一步针对多维数据中普遍存在的数据不完整性问题,包括固有稀疏特性,数据缺失等,提出了基于张量表征以及联合张量分解网络的低秩补全方法,在维持记录数据复杂关联、多维依赖以及潜在周期特性的同时,实现对多阶段不完整观测数据的互补推断与补全,有效提升了现有补全方法的精度。此外,针对大数据服务场景中存在的数据孤岛以及隐私泄露等问题,提出了基于联合张量分解网络的多方数据高效计算与联合分析方法,包括基于联邦框架的多方联合高阶正交迭代算法,以及基于联合高阶正交迭代算法的联邦张量分解方法,并分析了联邦张量分解模型的可并行、可增量等优势,实现了联邦框架下多方数据的安全高效分析。其次,针对联合张量分解网络拟合能力不足的问题,进一步提出了张量神经网络,并在此基础上研究了其结构冗余问题。具体来说,针对上述线性张量网络的拟合能力不足、数据分析过程缺少目标导向且难以适用于大规模数据处理等问题,提出了基于张量多线性代数理论的高阶张量神经网络,有效结合了神经网络和张量网络的优点,即神经网络强拟合能力与张量网络简洁性,在显著提升张量网络在大规模数据集上的分类性能的同时,实现了模型的百倍压缩。针对神经网络模型在处理大规模数据时存在的结构/特征冗余问题,提出了基于张量网络的深度神经网络优化方法。通过将传统的循环神经网络扩展到高阶场景,提出了基于多线性代数理论的高阶循环张量神经网络,利用张量多线性变换重构输入层-隐藏层以及隐藏层-隐藏层的基本线性变换,有效提升了循环神经网络对多维序列的表征以及处理能力,分类性能提升高达6%。进一步针对以全卷积网络为代表的卷积网络模型的结构与特征通道冗余问题,提出了基于联合张量分解网络的全卷积网络优化方法,并构建适用于替代卷积操作的轻量化且高效的多步卷积特征生成模块。在保证模型分割性能的前提下,模型参数被有效压缩80%以上。实验结果表明所提出的方法不仅可以有效提升传统神经网络模型的性能,而且可以大幅度减少模型的训练开销。论文所提出的一系列基于张量网络的数据联合分析、高效计算以及模型低秩优化方法,极大程度促进了张量多线性代数理论在大数据时代的进一步推广与应用。
其他文献
雷电灾害是对电力等许多行业影响最大的自然灾害。基于实时观测数据如大气电场仪数据、闪电定位数据和多普勒天气雷达体扫数据的预警方法是高分辨率雷电临近预警的主要方法。这些数据蕴含了雷电过程中不同层次和类型的信息,但这些数据的综合利用目前仍存在一些挑战。如电场仪受安装环境影响大,导致联网电场仪不同站点互相之间可参考性低;高分辨率雷达体扫数据中的雷云动态信息没有被充分利用;缺少客观稳定的雷云荷电模型获取方式
学位
准一维材料作为低维材料体系中的典型代表,具有独特的电学和光电性质,因此在光电探测器等光电子器件领域广受国内外研究人员的关注。然而在准一维材料生长过程中,不可避免地会引入杂质掺杂或缺陷,导致载流子浓度提高,减缓器件响应速度,增大器件暗电流,降低探测器性能。本论文基于低成本、高效率的化学气相沉积(CVD)方法研究了准一维半导体材料的生长工艺与机理。硫化镉纳米带、碲纳米线以及纳米带等准一维半导体材料展现
学位
声波传感技术在很多行业中有着十分重要的作用,例如在电力行业中,常用于变压器的绝缘油产生的气体由于光声效应产生的声波信号的检测,从而检测和判断变压器存在的故障种类。传统的电学声波传感器,通过将声波信号转化为电压信号,容易受到电磁干扰的影响。相比之下,光纤声波传感技术作为一种光学检测技术,能够实现高精度、宽频带的声波信号测量,并且体积小、重量轻、抗电磁干扰。本文重点研究了干涉型光纤声波传感器的相位解调
学位
在后摩尔时代,碳纳米管因其优异的电学性能而被认为是纳米MOSFET沟道材料的理想选择之一,互连是研制碳纳米管器件和电路的关键技术之一。一般的传统金属材料与碳纳米管之间存在较大肖特基势垒;石墨烯有着与碳纳米管相同的sp~2杂化电子结构,通过范德华力连接的石墨烯与碳纳米管之间具有比一般传统金属更小的肖特基势垒,但是两者之间的物理间隙阻断了其间电子的弹道输运。近年来,碳纳米管与石墨烯的共价连接研究备受关
学位
“多时空作业”是装配式建筑区别于传统建造方式的基本特点之一,要发挥装配式建筑的优势,就必须实现不同时空阶段的有序协同。装配式建筑亟待解决的关键问题之一是部品部件在生产、运输、装配过程中的调度问题,即如何确保部品部件在不同阶段的精准有序流转。低效率的部品部件调度容易导致生产供应出现提前或延迟:若供应提前且工地缺少足够堆放空间,工地存储和堆场布局规划则面临压力,产生仓储和二次搬运等额外费用;若供应延迟
学位
紫杉醇作为一种来源于裸子植物红豆杉的二萜类化合物,因其独特的作用机制及广谱的抗癌效果成为市场上需求量极大的抗肿瘤药物。但紫杉醇在红豆杉中含量极低,生物合成步骤多、过程复杂,且代谢调控机制仍不清晰,目前尚无有效促进红豆杉体内紫杉醇大量合成的措施。因此,阐明紫杉醇合成调控机制,对其生产具有重要的理论指导价值。课题组前期筛选到一个与紫杉醇合成正相关的调控因子miR5298b,本研究对该调控因子的功能及其
学位
基于光与量子系统本征态的耦合是形成光诱导态的主要手段,探索这种虚拟量子态的进一步应用需要准确确定其能量结构。在使用单色光的情况下,一般是采用静态吸收光谱和光电离谱对光诱导态进行观测。随着激光脉冲的发展,其脉宽越来越短,根据傅里叶变换的特性,此时的激光不再具有单色性,由此得到的光诱导态变得与时间相关,这样的对电场具有依赖性的虚拟量子态在物理,化学和量子信息等领域具有广泛的应用前景。此时上述观测技术变
学位
背景:长期睡眠障碍和睡眠周期紊乱会引发多种疾病,而研究短暂睡眠周期紊乱,对人体外周血多组学分子的影响,有助于为发现和治疗这些疾病提供重要的分子靶标。此外,研究发现睡眠障碍是神经退行性疾病的早期表现症状之一,因此针对睡眠障碍的治疗措施对预防及改善神经退行性疾病具有重要意义。褪黑素作为一种具有调节生物钟和睡眠周期的胺类激素,已被用于对阿尔茨海默病(Alzheimer’s disease,AD)的治疗研
学位
自由空间光通信(Free Space Optical Communications,FSOC)系统能够提供更高的传输速率,具有不受频谱管制、系统结构紧凑、保密性强等特点,既可以作为异构网络中射频通信技术的补充或备份,也可独立构建高速光无线链路,在航天、军事和民用通信技术领域都具有重大应用价值。然而激光传输路径上存在的大气湍流破坏了激光光束的波前,造成接收端出现光束展宽、光束漂移、光强抖动等劣化现象
学位
硅基集成光子平台具有高集成度、低成本、与CMOS工艺兼容性好等优势,成为构建下一代大带宽光互连系统的最佳平台之一。为了进一步提升硅基集成光子芯片的通信容量,研究人员开发出了多种复用技术。其中,模分复用技术利用多个空间模式携载光信息,不增加系统复杂性,且能与波分复用、偏振复用结合来显著提升片上光互连容量。因此,多模硅基光子学成为近年来的研究热点。为了构建片上高密度集成模分复用系统,人们研究了一系列硅
学位