基于层次模型和注意力机制的文本分类方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cloudwing5237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术和智能设备的快速发展,人们可以随时随地通过手机在社交平台上浏览和发布信息,诸如微博、微信等社交应用,每天都有海量的文本数据产生。面对数据量的爆炸式增长,如何有效地对文本数据进行分类成为自然语言处理中一项重要的课题。现阶段,基于机器学习的文本分类方法和基于深度学习的文本分类方法都取得了较好的分类效果,人们在模型如何学习文本内容特征以及提升模型注意力等方面已经做了很多研究。但是,在长文本分类中,如新闻、小说、阅读理解、微博等文本,文本与文本之间存在着层次结构特征。而且对于段落文本来说,模型不仅需要关注关键词与非关键词对分类结果的影响程度,而且需要关注段落中不同句子之间亲和度的大小。为此,本文对层次模型和注意力机制展开深入研究,在卷积神经网络和双向长短期记忆网络模型基础上,改进文本分类模型。本文主要工作分为以下三个方面:(1)提出了基于非负矩阵分解和支持向量机(NMF-SVM)的文本层次特征提取方法。首先,改进词移距离相似度算法(WMD)为词性词移距离算法(SWMD),通过缩短相同词性的空间语义距离,来优化由NMF-SVM分类器提取到的文本标签。其次,利用优化后的文本标签构建树型层次模型。最后,对层次树进行路径编码,以层次树中根结点到叶结点的路径编码表示提取到的对应文本的层次特征。(2)提出了基于四要素词和句间亲和度的注意力机制(SEAN)。通过提出四要素词性规则,对文本中时间、地点、人物和事件四种要素进行提取,进而得到不同词之间的注意力。并针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。针对四要素突出的数据集,利用注意力机制SEAN,可以有效地将文本中的词语和句子共同关注起来。(3)提出了基于层次特征和注意力机制的分类模型HAF-CBLSTM(Convolutional Bi-directional Long Short Term Memory networks based on Hierarchical and Attention Feature)。本文使用卷积神经网络模型和长短期记忆网络模型作为分类基础,利用卷积神经网络能够减小输入的维度、双向长短期记忆网络能够学习长距离的信息的特点,来解决长文本维度大的问题。然后,将文本层次特征和SEAN方法结合到深度学习分类模型上,得到新的混合模型HAF-CBLSTM,从而使模型可以学习到的不同层面的特征。在复旦新闻数据集上进行实验,验证了改进后混合模型HAF-CBLSTM的有效性。
其他文献
李白的许多五绝作品在后世诗论中被誉为天才之作,实际上李白的大部分五绝在表现句式和艺术构思两方面都明显存在借鉴前人的痕迹。只是李白在综合前人妙处的基础上融入了自己
抚育间伐对森林生长的影响体现在很多方面,包括对林分生产力及其林分因子、林下植被及灌木、林下土壤和天然更新的影响等方面。作者对国内外学者在这些方面的研究进行了综述,
2011年7月2日,由上海金融学院主办、上海金融学院保险学院承办的第一届"中日社会保障学术论坛"在上海金融学院隆重举行。来自日本和中国高校及相关研究机构的60余名专家学者参
宋明时期的书院教育在其发展的末期沦为科举考试的附庸。17世纪后期的启蒙教育家颜元,以经世致用为宗旨,倡导一种习行经济的书院教育,并对书院的治学内容、培养目标、为学方
宪法对私有财产的保护由来已久,宪法保护的私有财产权和作为人权的私有财产权之间既有区别也存在联系,本文从人权保障角度,并结合国际人权标准,对我国宪法中对个人财产权的保护进
本文简述了20世纪70年代以来,二斑叶螨对杀虫剂抗性的发展和现状;并简要介绍了二斑叶螨抗性产生的原因、机理和治理方法.
以加拿大、德国、意大利、马来西亚和美国5个国家作为对比国,利用1992~2006年的Comtrade数据,通过CMS模型比较分析了影响中国木制家具出口贸易变动的因素。结果表明:⑴影响中
金克木先生是北京大学老一辈的著名学者。他于 1912年 8月 14日生于江西 ,籍贯安徽寿县。 4 0年代 ,他赴缅甸、印度 ,学印地语与梵文 ,在印度佛经圣地鹿野苑潜心钻研佛学。 1
在当前智能电网和泛在电力物联网的背景下,电力负荷进行精确的提取,对电网的安全稳定运行、电力需求侧管理、电网负荷预测有很大的意义。本文针对柔性负荷中纯低谷储热负荷的
战略性新兴产业以前沿科技为支撑,对产业发展方向具有引领和带动作用,是转变经济发展方式,进行产业结构优化、升级和调整,实现经济社会可持续发展、跨越式发展,全面建成小康