基于傅里叶域的大规模数据关联分析研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:jh_fan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
典型关联分析是一种广泛应用于统计学和机器学习领域的关联分析技术。然而,由于其训练过程的高复杂性,导致大规模数据的关联分析存在极大的难度,计算处理单元和内存系统均面临着沉重的负担。针对该问题,本文立足于大规模数据的关联分析研究,充分考虑关联分析准确率、时间效率、内存优化的不同要求,提出了基于傅里叶域的大规模数据关联分析算法模型,主要工作如下:1.针对典型关联分析求解特征空间的高度复杂性,以及大规模数据的关联分析处理存在计算量复杂、内存占用高等难题,本文提出基于傅里叶域的大规模数据线性关联分析优化算法。该算法通过对数据进行傅里叶变换,可以将传统的关联分析特征空间求解转化为寻找一些预定义的、具有判别性的傅里叶基集合,从而获得关联分析速率的提升。此外,在基于傅里叶域关联分析的基础上,提出一种新颖的傅里叶域特征评估方案,以进一步实现算法速率和内存效率的共同提升。并且本文将基于傅里叶域关联分析算法思想成功拓展到非线性核模型。实验表明该算法与现有大规模数据关联分析方法相比,如随机非线性关联分析、内核非线性正交迭代等算法,训练时间比现有方案快100~1000倍,但精度没有下降。2.将前述思路拓展到深度网络中,本文提出基于傅里叶域大规模数据关联分析的深度模型算法。该算法通过快速傅立叶变换的性质获得数据样本的傅里叶域表示,并将深度关联分析频繁的特征分解过程转换为寻求一些具有判别性的傅里叶域基,使得矩阵运算得到进一步简化,同时利用更精细的频域空间特征进行关联分析,从而实现深度模型快速且高效的训练。在多个大规模数据集上的实验结果表明,基于傅里叶域的大规模数据深度关联分析算法在时间效率和性能等方面可以获得更佳的训练效果,模型算法的训练时间比深度关联分析、深度广义关联分析等算法快50~100倍且准确率相近。3.基于上述关联分析算法设计并实现一个大规模数据图像快速分类系统,以友好的可视化界面为用户提供系统管理和图像分类服务。系统的运行和测试表明以上研究内容提出的算法模型性能优越且能够应对大规模数据图像的训练分类任务,验证了本文提出的大规模数据关联分析算法的有效性。从科学研究方向分析,大规模数据不但具有非结构化的特点,而且由于其数据量大、特征维度高,给科学研究带来了诸多挑战。本文提出的方法模型基于傅里叶域的大规模数据关联分析研究,可以快速高效的进行大规模数据的关联处理,实现关联分析速率和内存效率的共同提升。从实际应用方向分析,本文提出的方法模型可以广泛应用于数据挖掘、计算机视觉、数据分析等诸多领域,其不但可以帮助理解底层数据结构,并且在聚类分析、回归分析和许多其他任务中都具有优异的性能。
其他文献
伴随着社会的进步,计算机科学已经步入了人们的生活,因此,各种各样的智能系统被应用到人们的实际生活中,如自动驾驶汽车系统等。然而,这种系统的正确性和可预测性是至关重要的,尤其在角落案例的情况下。因此如何为深度学习(Deep Learning,DL)系统自动的生成测试输入成为软件测试领域研究的重点。为了将传统软件测试方法应用到DL系统,测试方法Deep Xplore被提出来,但是,该方法存在以下两个缺
学位
秸秆作为中国重要的生物质资源之一,有多种利用途径。而秸秆还田对恢复土壤地力有重要价值。东北土壤由于长期的耕作和化肥的过度使用逐渐退化。秸秆还田能够为土壤提供养分,缓解土壤退化这一问题。但东北地区年平均气温低,秸秆产量大,秸秆还田后分解非常缓慢。为了解决东北地区因常年低温导致秸秆还田后难分解的现状,提高稻田土壤肥力并促进微生物活动,探究有效的秸秆还田方式。本试验于2021年春季4月在黑龙江省泰来县进
学位
近年来,医疗信息化平台的发展带来了电子病历共享的需求。传统电子病历共享系统以医院为电子病历的存储方和管理方,在共享和存储方面存在数据泄露、数据丢失、易被攻击等问题。基于区块链的电子共享系统可以增加患者在共享过程的参与度,将信息和操作上链实现多方监管,可以有效地缓解上述问题。本文针对电子病历共享系统在共享安全、存储安全和效率方面的需求,对比分析现有基于区块链的电子病历共享系统存在的问题,旨在提出一种
学位
<正>当我在刚刚苏醒的荒野见到东方白鹳时,犹如看到洁白的信使:是的!它们就是春天的信使!紧接着,就会看到虫子翻身,蚯蚓松土,草长莺飞,花团锦簇。又一幅迷人的辽河口湿地风光——《鸟雀翔集图》,就要重新开始描绘了!可能是因为春天的缘故吧,每年大地解冻之时,我的心中常常有一种到野外走一走的冲动:看看亲爱的草们、树们是否如约醒转,看看河水是否日夜不停一个劲儿地奔流,看看南迁北徒的“英雄们”是否如期归来,看
期刊
由于自然环境和人为活动的影响,土地盐渍化的趋势不断上升,是土地退化的主要原因之一。盐渍化使土壤特性发生改变,抑制植物的生长代谢,作物在盐碱胁迫条件下产量下降。水稻作为重要的粮食作物之一,也同样面对盐碱胁迫的危害。因此,对盐生植物根际微生物群落多样性进行研究,以及对其耐盐碱根际促生菌的筛选对于缓解植物盐碱胁迫具有重要意义。本研究利用高通量测序方法对星星草根际土壤细菌群落结构组成进行分析,并从中分离筛
学位
自5G概念提出以来,区块链的发展日益成熟,特别是在区块链数据验证效率方面。对于传统的区块链用户,验证一个事务需要将区块链上的所有事务从原始区块下载至最新区块。该种方案存在验证开销大,验证效率低,易被攻击等问题。因此本篇论文根据区块链数据存储验证方案在数据安全、验证效率以及激励机制等多方面的需求,利用最前沿的技术工具,同时与其他验证方案多方对比分析,旨在提出一种基于休眠机制的区块链数据验证方案,在保
学位
锌指蛋白转录因子是拟南芥转录因子家族中种类最多的一种,在拟南芥生长发育过程中起到重要作用。ARABIDOPSIS YIN YANG 1(AtYY1)作为锌指蛋白,是一种具有双重功能的转录因子,参与了拟南芥响应逆境胁迫的过程,并在脱落酸(ABA)信号通路中发挥作用。目前关于AtYY1基因的研究相对较少,已发现的能够与AtYY1相互作用的蛋白质数量不多,因此,AtYY1基因在拟南芥生长发育过程中的具体
学位
原矿精选能耗大,劳动强度大,效率低,选矿指数低。随着时代的发展,已经无法满足人们对工业产品的高质量要求,加之其巨大的劳动力成本,所以选矿技术应运而生。该方法清洁无污染,已广泛应用于矿物加工。根据磁选机稳定运行的要求,从系统的整体结构、硬件选择和子系统功能出发,通过西门子S8-211 PLC设计了适合于SLon系列高梯度磁选机的自动控制系统。在磁选机自动控制系统的设计中,主要工作如下:(1)选择合适
学位
镉(Cd)是污染土壤的主要重金属之一,土壤中过量的Cd易被植物吸收和积累,并通过食物链进入人体。硫化氢(H2S)作为一氧化氮(NO)、一氧化碳(CO)之外的第三种气体信号分子,被发现具有可以缓解多种植物毒害的作用,并参与植物生长发育和响应胁迫过程。为进一步研究在H2S作用下,植物对Cd抗性的调节能力,本研究以紫花苜蓿(Medicago sativa L.)为试验材料,进行了种子萌发试验和盆栽试验,
学位
由于全球气候变化,在植物种植期间,植物不能移动,因此它们必须承受干旱、盐碱和极端温度等非生物胁迫。这些胁迫因素极大地限制了植物发育,阻碍了生长,从而降低了生产力,对其造成严重损害。转录因子已在许多作物中得到广泛研究,以及在植物生长和防御中发挥重要作用。WRKY转录因子(TFs)在植物对非生物胁迫的反应中起重要作用。然而,参与紫穗槐(Amorpha fruticose L.)胁迫耐受性的WRKY T
学位