大规模分类决策的多粒度建模方法与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:byekao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,分类任务涌现出一系列新的特点。待处理的数据规模和数据维度爆炸性增长,数据中包含的类别数量也急剧地扩大,这给传统机器学习方法带来了新挑战。多粒度建模是一种利用大量数据类别间的层次关系对学习任务进行建模的方法,该方法模拟人脑的思维模式和人类处理相关任务的行为模式,基于分层抽象的类别层次结构,高效地对大规模数据进行组织、处理和检索。如何面向大规模分类任务充分地挖掘和利用数据间的层次结构和多粒度关系,是机器学习和数据挖掘领域的一个重要挑战。本文针对以上问题,从层次结构建模、多粒度分类设计和分层学习的联合优化方法三个方面,对多粒度建模和分层学习方法进行了研究,并面向大型工业设备故障诊断的应用需求进行了具体的方法设计。主要的研究内容如下:(1)基于分层分类泛化误差界的层次结构建模。针对层次结构建模中依赖数据先验分布假设和缺乏面向分层分类理论性设计的问题,通过对分层分类泛化误差界的分析,分别提出了基于类假设间隔和基于模糊粗糙集理论的类间相似性度量方法;同时,针对现有方法使用分层谱聚类形成层次结构中超参数调节代价较高的问题,引入了自适应分层社区发现算法,实现了无参化构建层次结构,并面向大规模任务设计了基于向量量化方法的加速和适配算法。(2)考虑层次结构的风险最小化多粒度分类。针对多粒度分类方法关注预测在正确路径上的样本的信息表达程度,忽略预测在错误路径上的样本的与真实标签偏离程度的问题,提出了基于风险最小化的多粒度分类模型,定义和度量了多粒度分类任务中的风险,在局部上利用贝叶斯风险框架执行风险最小化的决策,在全局上设计了分层风险评价指标,通过遗传算法和强化学习方法的优化和学习来引导局部决策,从而实现整体风险最小化的多粒度预测。(3)端到端联合优化的分层学习方法框架。针对现有分层学习方法中部分模块缺失或全部模块无法进行联合优化的问题,提出了联合优化的分层学习方法框架,将表示学习、层次结构建模、分层分类器训练和多粒度分类整合起来。所提出方法将以上四个部分划分为层次结构建模和多粒度预测网络两个模块,通过模块内部独立优化、模块间交替迭代优化的方式,形成了联合学习、共同优化的分层学习方法框架。(4)面向大型机械设备故障诊断的多粒度建模应用。基于实际应用场景中对一维空间信号和二维时空信号两种不同数据的建模需求,提出了基于故障层次结构学习的多粒度模型和多粒度深度知识迁移网络模型,分别通过将复杂问题分而治之地转换为若干简单的子问题和将粗粒度知识迁移到细粒度任务的方式,解决现有方法难以应对的类内差异减小类间差异增大,以及深度神经网络易收敛到较差局部最优解的问题。本文所提出的四方面工作,从模型到方法、从研究到应用地设计了多粒度建模和分层学习方法,并通过大量的实验验证了本文的方法是解决大规模分类决策的有效途径。
其他文献
面对日益增长的线上线下资源整合需求,越来越多的供应商选择侵入策略,于原有零售渠道的基础上开辟直销渠道,以通过所有可用的购物渠道为消费者提供无缝的购物体验。一方面,电子商务和第三方物流的快速发展吸引供应商开辟网络直销渠道侵入传统的零售市场。另一方面,一些发源于网络渠道通过电子零售商销售产品的供应商,开始建立线下直营店。供应商开辟直销渠道的侵入策略可能引起渠道竞争,进而对零售商的垄断权构成威胁和挑战。
学位
为探究气象因素与盘锦地区水稻产量的关系,运用指数平滑系数法从2009~2018年的水稻产量中计算得出水稻的趋势产量,进而分离出其气象产量,再与盘锦地区水稻生育期5~10月的各气象因素进行相关分析,得到关键气象因子,构建预测模型并经行验证。结果表明:水稻产量与气象因素具有一定的相关性,其中,5月平均温度及7月的湿度对水稻气象产量的相关系数较高,∣r∣相对较大。用构建的预测产量模型对2009~2018
期刊
天然产物特别是二次代谢产物一直以来都是新药研发不可或缺的一部分,过去三十年上市的一千五百多种新药大部分与天然产物相关。微生物天然产物具有丰富的结构多样性,这也使其具备各种各样的生物活性,几十年来一直是药物发现和开发的主要来源。Fleming发现青霉素开启了微生物天然产物作为抗生素的大门。然而随着抗生素的广泛使用,细菌耐药性问题日趋严峻,甚至出现了表现出多重耐药性的“超级细菌”。因此寻找新的抗生素或
学位
净化去除胶体颗粒的过程几乎遍及水处理工艺。其中过滤是饮用水处理中极其重要的一个环节,它担负着水质把关的重任。因此,研究过滤过程中,胶体颗粒的迁移行为和沉积机理,具有十分重要的理论和实际意义。本文以聚苯乙烯微球来模拟胶体态污染物,旨在研究胶体颗粒在滤料中的迁移行为和沉积机理,为胶体态污染物的迁移行为和理论研究提供新方法借鉴。主要研究内容及结论如下:首先,从胶体特性(模型胶体(Model colloi
学位
饱和氮杂环化合物因其在药物研发和有机合成中的重要性而备受关注。近些年来许多科研人员在其合成策略的发展方面做出了重要贡献,并取得了很大的研究进展。与常见的含氮、氧和硫的饱和氮杂环相比,含硒饱和氮杂环的合成方法报道较少。有机硒类化合物具有重要的生物活性,但因其合成方法的缺乏导致该类化合物的研究受限。本论文基于以上的研究热点和难点,对含硒饱和氮杂环化合物的合成方法进行了研究和探索。本论文分为以下六个部分
学位
从20世纪后期开始,随着经济社会的快速发展和人口数量的急剧增长,我国的草原生态出现了大面积退化、沙化现象,而传统的行政监管模式和产权制度设计已经越来越不能满足我国草场资源利益日益复杂化的局面。于是学术界和实务界开始转向从基层社区的角度去探索草原生态治理的有效政策方案,但是内生于草原牧区的社区治理模式中,草原生态的治理同样出现了各种难题。作为一种公共资源,草原是一种特定群体内部需要采取集体行动来实现
学位
新型配电网系统中,作为管理分布式资源的一种有效手段,虚拟电厂示范点开始集中涌现。多个虚拟电厂接入配电网后,若缺乏对内部资源协调及配电网的引导机制,将导致虚拟电厂收益低下与配电网潮流越限的问题。对此,本文构建虚拟电厂内产消者互助的点对点电能共享机制,并以电价引导方式建立虚拟电厂与配电网的协同运行模型。首先,虚拟电厂内采用分布式方法协调各类型产消者的电能管理,并求得对外与配电网的交互策略;同时,配电网
期刊
随着经济不断发展,船舶运输业也取得较大进步,但船舶尾气排放对港口和周围环境的污染却愈发严重。在船舶发动机中,柴油机占有领先地位,其属于压缩发火的往复式内燃机,通常使用挥发性较差的柴油或者劣质含硫燃料油作燃料,因此其会排放大量的氮氧化物(NOx)和硫氧化物(SOx),且排放温度范围比较宽(180-500°C)。目前NH3选择性催化还原法(NH3-SCR)是最有效去除NOx的方法,但是由于SOx易转化
学位
得益于大规模高质量标注数据集,深度学习模型在计算机视觉领域取得了飞速发展,然而采集如此大规模数据集不可避免的引入错误标注的标签,也就是形成了标签噪声问题。受标签噪声的影响,深度学习模型在训练过程中对标签噪声过拟合,最终影响深度学习模型的性能。且标签噪声在许多高端、精密的实际应用场景中广泛存在,如无人驾驶、故障诊断等领域。因此,提出标签噪声鲁棒深度学习算法具有深远的理论和应用研究价值。所以,本文基于
学位
生物质气化技术由于其原料适用性强、产物燃气用途广等特点备受瞩目。燃气高效清洁制备和副产物灰渣处置制约生物质气化技术的可持续发展。天然矿石类(Ca O为主要活性成分)及碱金属类(尤其是K类)催化剂因成本低、活性高常用以提高气化性能。气化灰渣富含碱金属及碱土金属(AAEMs:K、Na、Ca和Mg),具有较好的催化潜力。据此,本研究提出生物质气化灰渣循环催化利用技术思路,开展了如下研究工作:(1)利用H
学位