基于深度多标签学习的文本语义索引技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：minghao1122

【摘要】

：

【作者】

：

潘云鹏

【出处】

：

北京工业大学

【发表日期】

：

2019年01期

【关键词】

：

多标签文本语义索引深度学习自然语言处理迁移学习多任务学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

海量信息时代,信息内容理解变得愈发重要,一种重要的方法是给内容打上合适的语义标签,例如:根据内容和用户的标签进行推荐;预测网络评论的语义标签来过滤有害评论;使用一套关键词对科学文献进行标注索引等。人工标签标注低效又不经济,因此研究高性能的多标签语义索引算法具有重要意义。传统多标签文本语义索引算法大多基于统计机器学习方法,随着近年来深度学习的飞速发展,其逐渐变成了自然语言处理领域的最优实践方法,本文针对基于深度学习的多标签文本语义索引问题,按以下逻辑层层递进地展开研究:(1)对于标签空间较小(可选标签范围小)的多标签文本语义索引问题,本文使用经典的二元相关方法,将多标签问题转换为多个单标签问题,使用在自然语言处理领域展现了强大性能的BERT迁移学习的方法作为基学习器来处理每个标签的分类,将各个基学习器的结果综合实现多标签类别预测。(2)对于标签空间较大(可选标签范围大)的多标签文本语义索引问题,二元相关方法的资源消耗过大(个可选标签需要训练个分类器,推断阶段同样需要个分类器同时工作),同时不易利用标签间关系。本文设计了基于共享权重的神经网络结构,同时预测所有标签,降低计算资源消耗,此外,我们设计了一种即插即用的(不依赖于具体网络结构)多任务学习结构,高效地利用标签间关系。(3)面对训练数据不均衡问题,常见的基于数据采样的方法不适用于一次性预测所有标签的共享权重的神经网络算法。本文设计了一种简单有效的缓解数据不均衡影响的方法,以focal loss作为优化目标,并使用根据类别正负例比例动态调整分类阈值,可以在一定程度上缓解数据不均衡问题对算法性能的影响。(4)面对训练数据规模很大的情况,数据可能无法一次性加载到内存中,同时,使用一块GPU甚至一台主机的训练速度都无法满足应用需求。为使得本文设计的算法更贴近实际应用场景,本文采用了高可扩展的算法实现,包括protocol buffers训练数据存储格式、流水线式的数据加载与转换、和基于ring all-reduce的分布式训练过程。本文设计了对比实验,验证了设计的方案的有效性,设计的方法在实验数据集上取得较好的表现:在kaggle jigsaw toxic comment数据集的kernels已公开解决方案中AUC-ROC指标排名第二,在leaderboard中可进入6%;在BioASQ Task 5A数据集上micro precision优于其他所有方案,micro recall在所有参赛队伍提交的最佳方案中排名第三。

其他文献

甲氰咪胍的毒副作用

期刊

甲氰咪胍毒副作用合理用药

营养支持在降低肺癌化疗患者真菌感染率中的作用研究

目的探讨积极营养支持干预在降低肺癌患者化疗时肺部真菌感染率中的作用。方法选择符合标准的120例肺癌患者，分为自主进食组（A组），在住院化疗期间，嘱患者进行自主的进食，并嘱家属监

期刊

肺癌化疗真菌营养支持Lung cancer Fungus Nutritional support

《东方杂志》“社说”栏目研究

伴随着帝国主义侵略的不断深入,中国的民族危机日益加深。先进的知识分子与爱国志士开始寻求救国救民的道路,于是《东方杂志》应运而生。《东方杂志》的爱国情感和救国意识非

学位

《东方杂志》社说栏目

新时期小城镇的生态建设研究

处在新时期的发展背景下,生态建设工作已经逐渐成为了小城镇建设中的重要内容,对于促进社会经济的整体发展具有积极意义和作用。小城镇,是社会经济文化政治方面不断发展的重

期刊

新时期小城镇生态建设方式可持续发展

微课，创新教育发展的助燃剂

【摘要】随着“微文化”悄然诞生，“微时代”的到来，微课成了创新教育发展的助燃剂。微课如同汩汩清泉浸润干涸枯燥的土地，给语文课堂教学带来新的活力，让学生的个性得到张扬，从而提升了创新教育的效果。作为一名老师应充分展示语文课堂教学的魅力，利用微课让语文课堂成为学生求知的乐园。　　【关键词】创新教育微课氛围发展活力　　【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089（

期刊

创新教育微课氛围发展活力

特异性标志物在小儿病毒性心肌炎中的检测价值

目的探讨特异标志物血清心肌肌钙蛋白T（CTnT）、高敏C反应蛋白（hs—CRP）和肌酸激酶同工酶（CK—MB）联合检测对小儿病毒性心肌炎（VMC）的诊断价值。方法将108例患儿分为VMC纽及正常对照纽

期刊

心肌肌钙蛋白T高敏C反应蛋白肌酸激酶同工酶病毒性心肌炎检测价值CTnT hs-CRP CK-MB Viral myocarditis Serum

加工助剂在汽车工业橡胶密封件中的应用

概述了汽车密封件及其生产所用到的橡胶，重点介绍了加工助剂及其对氟橡胶，丙烯酸酯橡胶，氯醚橡胶、丁腈橡胶等的加工性能的影响，并根据对橡胶物理性能，流变性能的测试结果推荐相应

期刊

汽车密封件橡胶助剂

时间序列数据中相似子序列快速查询技术研究

从序列数据集中查找趋势相近的子序列是序列数据挖掘中一项关键技术,该技术在金融、医疗、气象、网络安全等领域均有重要应用。子序列查询一般以动态时间规整(Dynamic Time Warping,DTW)作为相似性度量算法,但是该相似性度量算法时间复杂度较高,因此查询长子序列时难以实现在线查询。时间序列表示方法通过降低序列的维度,可以有效减小查询的时间开销。因此,本文采用时间序列表示与相似性度量算法相结

学位

序列数据查询动态时间规整子序列时间序列

南京市研学旅行基地建设研究

研学旅行作为近年来兴起的一种旅游形式,越来越受到大众的重视,研学旅行基地作为研学旅行活动开展的载体,具有重要的地位和作用。研学旅行基地是依托各地自然和文化遗产资源

学位

研学旅行基地研学旅行南京市策略

产后躁狂症患者一例的护理

期刊

产后躁狂症护理心理护理对症护理

基于深度多标签学习的文本语义索引技术研究

与本文相关的学术论文