中文文本多标签分类算法研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:wangzixiaoxun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题作为基础自然语言处理任务之一,其在推荐系统、搜索引擎和舆情分析等等大领域都有广泛的应用场景,而本文研究的多标签文本分类在现实生活中更是司空见惯。目前多标签分类算法普遍存在模型在分类时未考虑或较少考虑样本标签之间相关性的问题,显然这种做法是不符合传统认知的;第二点问题在于自然语言处理底层的文本表示方法的局限性,以往的词向量表示存在一词多义或不能同时获取上下文信息的问题。对此,将标签相关的先验知识和优化得到更好的文本表示成为亟需解决的问题。针对第一个问题,文章采用基于bert语言模型提取文本表示的方法,该方式从根本上解决了一词多义的问题,同时使用更为先进的transformer文本特征提取器替换LSTM,因其具有提取超长距离特征的能力、高效的并行能力和较快的收敛速度的优越性,并且是一种能够双向编码文本信息的处理方式,使得文本表示的结果包含更多的文本位置信息和序列信息,具有更强的鲁棒性。而对于标签相关性问题,文章根据数据集特性给出两种解决方案:1)对于体量小、特征相对明显、标签组合数少,部分标签之间共现度高的类汽车行业用户观点主题的短文本数据集,可以通过标签组合来描绘其标签相关性同时,将多标签分类转化为多分类问题,之后基于TextCNN进行文本分类,最后使用焦点损失缓解数据集中的类别不平衡问题。2)而对于更为一般的数据集,文章采用seq2seq基本架构来刻画,通过解码器一端的生成任务来模拟标签之间存在的相关性,其编码器由transformer编码器构成,解码器经过严格的数据分析仍然采用LSTM。同时在编码器一端加入混合自注意力机制,将文本中单词往往和其上下文密切相关的先验知识融入到模型当中,以增强其编码能力;在解码器一端实现了带掩码的softmax避免重复预测的问题,同时采用标签向量共享机制避免曝光偏差陷入局部最优。在实验验证部分,对原有的数据进行EDA方式的数据增强以缓解类别不平衡问题后,本文最后对上述方法在两个数据集上分别进行验证,最终得到了F1值0.8210和0.8465的较好效果,证明两种模型结构的合理性。
其他文献
摘要:通识教育又称为自由教育和博雅教育,是将受教育者作为一个具有主体性的、完整的人而施以全面的教育,通识选修课是通识教育课程的重要组成部分。目前高校通识教育选修课设置存在结构不合理、内容肤浅、划分不规范等现象,本文提出应该从课程设置理念、课程设置思路等四个方面对通识教育选修课进行改進。  关键词:通识教育选修课;课程设置;分析与探讨  中图分类号:G640?摇 文献标志码:A 文章编号:1674-
一个偶然的相遇,我有幸结识了《教育实践与研究》。从此以后,你便成了我心中魂牵梦绕的牵挂。
期刊
随着现代社会发展步伐的加快,生活和工作节奏也不断增加,人们长期的心理压力得不到释放,越来越多的人出现各种躯体和精神方面的症状。人在生活中会遇到很多应激事件,而慢性和
在我国,对于新闻舆论监督,在定义上有不同的表述。有人认为,新闻舆论监督是指通过社会情况和舆论信息之间的沟通与互动所形成的一种对社会运行机制中偏差行为的制衡与纠差机制。
现代高校教育体系重视培养学生的专业知识和技术能力。明确人文教育包含的丰富人文理念和精神,帮助学生熟悉自身状态,积极强化人文教育和专业教育的共同发展,推动高校教育体
黄骅港地区广泛分布着粉土及砂土层,对码头桩基稳定性有重要影响。鉴于砂土液化判别的不确定性和模糊性,本文引入模糊综合评判理论,通过对黄骅港海伟码头砂土液化判别资料的
随着社会主义市场经济的发展,社会对土木工程专业毕业生的素质要求愈加严格。一方面,社会要求土木专业的毕业生一参加工作即能独立开展工作,或在较短时间内适应并独立开展工作;另
《好心的哥被有心乘客挖走》一文讲述了大众出租车司机孙宝清的一段故事:那天,孙宝清遇到一位“马大哈”乘客,身无分文却“打的”赴宴。好心的孙宝清不仅免费送他到饭店,还给他留
儿童从幼儿园进入小学,经历了一次较大的身份和角色的转换。能否适应学校生活、形成学生角色在很大程度上取决于学校规范的养成。一年级学生的规范养成体现出精细化、持续性、