中文文本多标签分类算法研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户：wangzixiaoxun

【摘要】

：

分类问题作为基础自然语言处理任务之一,其在推荐系统、搜索引擎和舆情分析等等大领域都有广泛的应用场景,而本文研究的多标签文本分类在现实生活中更是司空见惯。目前多标签

【作者】

：

刘文臻

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

标签相关性 seq2seq transformer 文本表示

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类问题作为基础自然语言处理任务之一,其在推荐系统、搜索引擎和舆情分析等等大领域都有广泛的应用场景,而本文研究的多标签文本分类在现实生活中更是司空见惯。目前多标签分类算法普遍存在模型在分类时未考虑或较少考虑样本标签之间相关性的问题,显然这种做法是不符合传统认知的;第二点问题在于自然语言处理底层的文本表示方法的局限性,以往的词向量表示存在一词多义或不能同时获取上下文信息的问题。对此,将标签相关的先验知识和优化得到更好的文本表示成为亟需解决的问题。针对第一个问题,文章采用基于bert语言模型提取文本表示的方法,该方式从根本上解决了一词多义的问题,同时使用更为先进的transformer文本特征提取器替换LSTM,因其具有提取超长距离特征的能力、高效的并行能力和较快的收敛速度的优越性,并且是一种能够双向编码文本信息的处理方式,使得文本表示的结果包含更多的文本位置信息和序列信息,具有更强的鲁棒性。而对于标签相关性问题,文章根据数据集特性给出两种解决方案:1)对于体量小、特征相对明显、标签组合数少,部分标签之间共现度高的类汽车行业用户观点主题的短文本数据集,可以通过标签组合来描绘其标签相关性同时,将多标签分类转化为多分类问题,之后基于TextCNN进行文本分类,最后使用焦点损失缓解数据集中的类别不平衡问题。2)而对于更为一般的数据集,文章采用seq2seq基本架构来刻画,通过解码器一端的生成任务来模拟标签之间存在的相关性,其编码器由transformer编码器构成,解码器经过严格的数据分析仍然采用LSTM。同时在编码器一端加入混合自注意力机制,将文本中单词往往和其上下文密切相关的先验知识融入到模型当中,以增强其编码能力;在解码器一端实现了带掩码的softmax避免重复预测的问题,同时采用标签向量共享机制避免曝光偏差陷入局部最优。在实验验证部分,对原有的数据进行EDA方式的数据增强以缓解类别不平衡问题后,本文最后对上述方法在两个数据集上分别进行验证,最终得到了F1值0.8210和0.8465的较好效果,证明两种模型结构的合理性。

其他文献

通识教育选修课课程设置的分析与探讨

摘要：通识教育又称为自由教育和博雅教育，是将受教育者作为一个具有主体性的、完整的人而施以全面的教育，通识选修课是通识教育课程的重要组成部分。目前高校通识教育选修课设置存在结构不合理、内容肤浅、划分不规范等现象，本文提出应该从课程设置理念、课程设置思路等四个方面对通识教育选修课进行改進。　　关键词：通识教育选修课；课程设置；分析与探讨　　中图分类号：G640？摇文献标志码：A 文章编号：1674-

期刊

通识教育选修课课程设置分析与探讨

报纸编辑创新的四大障碍

期刊

报纸编辑编辑新闻业务处罚制度新闻报道

读你的感觉真好

一个偶然的相遇，我有幸结识了《教育实践与研究》。从此以后，你便成了我心中魂牵梦绕的牵挂。

期刊

慢性轻度应激抑郁模型的应用及研究进展

随着现代社会发展步伐的加快,生活和工作节奏也不断增加,人们长期的心理压力得不到释放,越来越多的人出现各种躯体和精神方面的症状。人在生活中会遇到很多应激事件,而慢性和

期刊

抑郁症慢性轻度应激抑郁模型研究进展

舆论监督如何规避新闻官司

在我国，对于新闻舆论监督，在定义上有不同的表述。有人认为，新闻舆论监督是指通过社会情况和舆论信息之间的沟通与互动所形成的一种对社会运行机制中偏差行为的制衡与纠差机制。

期刊

新闻舆论监督新闻官司社会运行机制偏差行为大众传播媒介舆论信息社会事务公共利益

人文教育在高校教育体系中的融合与渗透

现代高校教育体系重视培养学生的专业知识和技术能力。明确人文教育包含的丰富人文理念和精神,帮助学生熟悉自身状态,积极强化人文教育和专业教育的共同发展,推动高校教育体

期刊

高校教育体系人文教育融合渗透环境

模糊信息分析模型在黄骅港砂土液化判别中的应用

黄骅港地区广泛分布着粉土及砂土层,对码头桩基稳定性有重要影响。鉴于砂土液化判别的不确定性和模糊性,本文引入模糊综合评判理论,通过对黄骅港海伟码头砂土液化判别资料的

期刊

黄骅港砂土液化模糊信息分配法模糊信息分析模型Huanghua Portsandy soil liquefactionfuzzy data distrib

土木工程专业实践教学体系实施方案的探讨

随着社会主义市场经济的发展，社会对土木工程专业毕业生的素质要求愈加严格。一方面，社会要求土木专业的毕业生一参加工作即能独立开展工作，或在较短时间内适应并独立开展工作；另

期刊

土木工程实践教学体系实施方案

重视正面报道的力量——评《好心的哥被有心乘客挖走》

《好心的哥被有心乘客挖走》一文讲述了大众出租车司机孙宝清的一段故事：那天，孙宝清遇到一位“马大哈”乘客，身无分文却“打的”赴宴。好心的孙宝清不仅免费送他到饭店，还给他留

期刊

《好心的哥被有心乘客挖走》新闻报道新闻记者正面新闻新闻主题

掌声的妙用——一年级小学生的规范艺术

儿童从幼儿园进入小学，经历了一次较大的身份和角色的转换。能否适应学校生活、形成学生角色在很大程度上取决于学校规范的养成。一年级学生的规范养成体现出精细化、持续性、

期刊

规范学生角色精细化表演性

中文文本多标签分类算法研究

与本文相关的学术论文