面向长尾分布分类任务的结构化深度学习模型与算法

来源 :天津大学 | 被引量 : 1次 | 上传用户:markwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长尾分布是大数据时代下一种普遍的不均衡的数据分布形式。在长尾分布中,小样本类别所占的比例很大,它们对整个数据集的影响不能被忽略,而且这些小样本类别的识别往往具有更重要的价值。长尾分布分类要解决的关键问题是如何有效地解决小样本类别由于样本缺乏导致的统计特性不强,无法充分刻画其类内差异性的问题。尽管当前存在一些处理不均衡数据的方法,但是这些方法主要聚焦于如何增强小样本类别的统计特性,无法对超出训练集描述范围的真实类边界进行有效地推理。本文主要讨论如何利用类别之间的关联关系来估计小样本类别的真实类边界,围绕标记之间的一阶线性关联关系和高阶分层关联关系,以深度神经网络模型为基础、标记关联关系建模为主要技术手段、多任务交互辅助学习为指导,探讨标记结构的引入对长尾分布分类任务的影响。具体来讲,主要包括以下几方面的研究内容:(1)基于标记一阶线性关联关系的深度学习算法考虑了标记之间的一阶线性关联关系,将单个类别的样本分布建模问题转化为样本序列的建模问题,标记之间的概率依赖关系作为类别在训练样刻画之外的补充知识来促进标记的正确识别,并在此基础上将深度模型与条件随机场进行了结合,使得所提出的模型既能完成标记的关联关系建模又具有较强的特征学习能力。(2)基于标记高阶分层结构的多任务协同学习网络以标记空间的树状分层结构为基础,针对当前自顶向下分层分类策略中误差传递的缺点,以不同层级之间标记的关联关系为先验知识,研究了不同层级的多阶关联关系的建模方式和作用机理,构建了基于不同层级之间多个分类任务协同学习的深度神经网络模型和算法。(3)基于深度神经网络的标记结构优化学习为了使标记结构建模对于一般问题具有普适性,研究了标记结构自动构建算法。针对当前标记结构学习方法(即标记空间划分方法)在处理复杂的长尾分布分类问题上的本质缺陷,基于特征空间与决策空间的一致性要求,以分块稀疏约束为主要技术手段,提出了将特征提取、分类器训练和标记结构学习进行联合优化的统一深度神经网络模型和求解算法。最后本文针对长尾分布分类任务,提出了一套详细的基于标记关联关系的深度学习解决方案。所提出的方法验证了挖掘标记之间的关联性,并有效利用这种关联关系进行建模是解决长尾分布分类的有效手段。
其他文献
正值求职旺季,看到有许多毕业生忙着写求职“万言书”、寄写真照、做VCD光盘、面试穿名牌甚至去美容整形等,我想起自己的一次求职经历。
他给自己名字的注解是"馒头泡在稀饭里"(周润发),这是他的谐;即使到了好莱坞,他的英文名字也只是"CHOWYOU-FAT"不好记也不好读,这是他的酷;他很少回香港,却始终不入美国藉,他
目的 对小儿呼吸道感染患者进行肺炎支原体(mycoplasma oneumonia,MP)检测,为临床诊断和治疗提供有力的依据.方法 采用日本富士瑞必欧株式会社MP抗体检测试剂(SERODIA-MYCO Ⅱ),
不是每一朵云都结了甜美的果不是每一叶小舟都回归最初的港湾
党的十八届三中全会指出“全面深化改革的总目标是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化”,并指出“财政是国家治理的基础和重要支柱,科学合理
本研究以多民族混居地区的汉族和少数民族群众作为研究对象。民族混居地区的族群关系格局与民族高度聚居地区有明显区别,在这种混居文化基础上形成的族群意识因而也受到更多
目的 调查西藏高原海拔5000m地区先天性心脏病(Congenital Heart Disease,CHD)的发病情况.方法 于西藏双湖县医院及多玛乡现场(海拔高度5000米)对700例未成年人(男性417例,女性283
文章总结了多年做班主任工作的体会,认为班主任只要对学生有一颗爱且注意工作方法和教育方法,就能使原本基础较差的职校生健康成长.
按照传统的企业人力资源管理模式,往往是采用命令式的管理模式,虽然很多企业已经采取了人性化的管理,但是,并没有真正意义地将人性化落实到位,没有做到企业文化与人力资源管
在 40 GHz 在收音机上纤维(RoF ) 的光调整的一个新奇计划系统被建议。它在 Mach-Zehnder 调节的人(MZM ) 的连续平行的结构产生光 QPSK/16QAM 信号。毫米波浪与光频率增加(O