基于多维度特征融合的中文短文本多标签分类方法的研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:papyevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了准确识别用户意图并帮助用户快速找到目标信息,需要在尽可能完整地表达目标信息全部涵义的前提下使用有限个数的标签对短文本进行分类。中文短文本通常表现出长度短、表述不规范和内容多样等特点,使用传统的文本单标签分类算法无法对其进行有效分类,因此针对中文短文本的多标签分类算法一直是学者们的重点研究方向。本文在现有文本多标签方法的基础之上,针对文本表示方法和特征提取策略进行改进,提出一种基于多维度特征融合的中文短文本多标签分类模型CRC-MHA,主要研究内容包括:(1)对比多种文本表示方法,包括Word2vec、BERT字向量和BERT句向量等。实验结果表明,相较于使用单一的文本表示方法,融合多种动态词嵌入文本表示的特征向量充分利用预训练语言模型在海量文本数据集上学习的文本特征表示能力,可以学习到更加全面的文本语义特征信息。(2)在模型特征提取层,设计了一种结合CNN、RCNN等多种特征提取模型与多头自注意力机制按照并行策略进行组合的特征提取策略,结合多头自注意力机制和Bi-LSTM提取全局关键特征的优势,以及CNN对于文本局部特征捕捉能力,融合多维度特征信息来表征句子的语义特征,从而获得更好的分类效果。本文的创新点有两点:其一,在文本表示层使用BERT模型和全词掩码技术进行动态词嵌入,对生成的词向量和句向量进行多维特征融合,借助海量预训练文本的优势更好地表征文本的上下文语义;其二,在特征提取层设计了一种结合CNN、RCNN和多头自注意力机制的并行特征提取策略,加强捕捉短文本内部的关键特征以提升分类效果。实验结果表明,CRC-MHA模型较BERT、BERT-CNN与BERT-RCNN模型在加权F1值评价指标上分别提升了2.07%、0.54%和0.46%,证明了本文提出的创新点对模型分类效果有提升作用,验证了模型的有效性。
其他文献
本试验旨在研究在饲粮中不同比例葡萄籽对多浪羊营养物质表观消化率、消化道组织结构、肠道细菌以及真菌菌群结构的影响。选取25只3月龄体重18.5±2.65kg健康多浪羊为试验动物,随机分为5组,每组5只羊,每只羊为1个重复,试验羊单栏饲养。试验共75天,其中预饲期15d,正饲期60d。饲养试验结束前10天使用粪袋进行消化试验,测定营养物质表观消化率;饲养试验结束后试验羊全部屠宰,取瘤胃、十二指肠、空肠
学位
煤柱高温氧化现象不仅造成了严重的煤炭资源浪费,而且威胁着井下作业人员的人身安全。防治巷道煤柱高温氧化常规措施包括注浆、采取注浆隔绝空气、喷涂密闭材料、加固堵漏、注水降温等手段。煤柱高温氧化隐蔽性强、治理难度较大,常规防治手段不能做到煤柱高温氧化的自动监测与防治。本论文主要研究了在浸水、加温及受载条件下煤样电阻率的变化情况,为通过监测煤柱电阻率的变化去控制注水量、进而实现煤柱高温氧化的自动防治奠定基
学位
绵羊与其他家畜相比,在胚胎体外生产过程中存在精子活力、卵母细胞利用率与胚胎成活率普遍偏低现象。而胞浆内单精子注射(Intracytoplasmic sperm injection,ICSI)技术能有效解决以上问题,能充分利用精子与卵母细胞,并有效提升胚胎成活率。但仍然有桑囊胚率偏低的难题,为优化绵羊ICSI胚胎的体外生产体系,提高桑囊胚率。本研究通过不同时间培养卵母细胞,确定最佳行ICSI时间;再
学位
近年来云计算、大数据、区块链等新技术飞速发展,引领了一大批行业进行“互联网+”转型,煤炭行业也不例外。“‘互联网+’煤矿安全管控云平台”研究已经持续多年,功能完善的系统也层出不穷,但是对于云平台上存储的煤矿安监数据的保障缺少较深入的研究。对煤矿安监云数据进行安全管控,不仅是行业发展和网络空间安全技术应用的必然趋势,更是国家相关政策法规的强制要求。因此,为了实现煤矿安监云数据的安全保障,需要建立基于
学位
期刊
弱胶结软岩自身承载能力较低,存在胶结性差、强度低、遇水易软化等特点,巷道顶板围岩及锚索孔淋水冲刷加剧了巷道顶板变形下沉,威胁巷道的安全稳定。因此,将锚注支护技术与弱胶结软岩顶板淋水巷道相结合,研究该类巷道围岩控制技术具有一定的现实意义。以杨家村煤矿5-1上煤层1#探巷淋水顶板为研究对象,采用现场调研、室内试验以及钻孔窥视等方法分析弱胶结软岩巷道顶板变形破坏特征及原因,原始创新提出普通锚索封孔注浆技
学位
地震、火灾等灾害事件的发生给我国经济发展和人民的生产生活带来较大的危害,灾害事件发生后,如何快速高效的开展搜救工作一直是各国急需解决的问题,利用同步定位与建图(Simultaneous localization and Mapping,SLAM)以及针对目标点的路径规划技术可有效提高搜救机器人的自动化程度,进一步增强搜救机器人在未知环境中的搜救能力。本文针对基于三维激光雷达的轮式搜救机器人建图及导
学位
煤壁片帮引起的冲击气流、刮板运输机运动及其对粉尘的反弹作用都会产生大量的粉尘,造成工作面的粉尘污染且严重影响井下的作业环境、损害工人健康、降低工作效率。本文以中煤集团塔山煤矿综采面为研究对象,采取理论分析和数值模拟相结合的研究方法,对冲击气流和粉尘的运移规律进行研究,分析影响冲击气流和粉尘浓度的一系列相关因素。论文的研究内容和主要结论包括以下几点:(1)研究了采面粉尘产生机理及其影响因素并根据守恒
学位
矿质元素钙、锌是植物生长发育过程中的必需元素,在各种生理生化过程中起重要作用。为了研究钙、锌对核桃硬壳发育以及果实品质的影响,本试验以‘温185’和‘新新2号’核桃品种为试材,对核桃叶面喷施不同浓度的螯合钙、螯合锌溶液。主要研究结果如下:1、喷施螯合钙、螯合锌对核桃木质素合成的影响研究结果表明,稀释1500倍液的螯合钙明显促进‘温185’核桃内果皮中的纤维素合成,而锌起抑制作用,在硬核末期(6月2
学位
我国矿井瓦斯地质条件复杂多样,因而不同矿区的瓦斯赋存千差万别,陕西韩城矿区北部为煤与瓦斯事故突出重灾区,特别在瓦斯富集的煤层软分层区域容易发生瓦斯事故,而矿区南部象山矿虽未发生煤与瓦斯突出事故,但其生产遭受着矿井瓦斯的严重制约。准确掌握象山矿的瓦斯解吸特性及瓦斯赋存规律,是矿井针对性瓦斯治理的重要指导,是保障矿井安全并高效生产的关键性问题。本文采集了象山矿3#、5#煤层软硬分层煤样,通过实验室实验
学位