基于深度文本特征表示的文本分类和命名实体识别方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qczjhyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习强大的特征学习能力在自然语言处理领域获得有效应用和突破。如何获得有效的文本特征表示,是判断深度文本特征表示算法好坏的关键之一。有效的文本特征表示,能够提升文本分类和识别的性能。文本分类和命名实体识别是自然语言处理领域的两项基础任务,也是自然语言处理领域的研究热点。本文基于这两种任务,提出相应的深度学习方法,提取有效的深度文本特征表示,从而提升文本分类和命名实体识别的性能。本文的工作主要包括以下两个方面:1)本文提出基于全局-局部互注意力机制(Global-Local Mutual Attention,GLMA)的文本分类模型。该模型同时建模了文本序列的全局和局部特征表示,并提出全局-局部互注意力机制来建模两者之间的对齐关系和相互作用,提取到更加有效的全局和局部特征。全局-局部互注意力机制包含局部引导的全局注意力和全局引导的局部注意力。一方面,局部引导的全局注意力为文本序列不同位置中语义相关的全局特征分配不同的注意力权重,从而捕获文本序列的组合语义。另一方面,全局引导的局部注意力能够自动地为文本分类任务相关的局部特征分配更多的注意力权重,捕获文本序列的关键局部语义特征。此外,该模型中的沿时间加权池化,能够有效地提取具有判别性的全局和局部特征表示。在23个文本分类数据集上的实验结果证明了该模型能够提取到更加有效的全局和局部特征表示,提升文本分类的准确率。2)本文提出基于多层次主题感知(Multiple-Level Topic-Aware,MLTA)的命名实体识别模型。该模型利用双向循环神经网络提取文本的序列特征表示,通过引入神经主题模型,建立多层次的主题表示:单词级别的主题特征表示和文档级别的主题特征表示。前者,学习了单词和隐含主题的相关性,能够捕获单词在不同语境下的不同语义。后者,能够捕获文档级别的全局信息,对单词所代表的真实含义具有更深的理解。在3个命名实体识别数据集上的实验结果表明了该模型的有效性。此外,通过定量和定性实验分析、可视化分析,也验证了多层次主题表示在识别有歧义和未登录词的命名实体的有效性。
其他文献
近年来,白光LED(发光二极管)具有节能环保的优点,受到了研究人员的广泛关注,并逐渐成为未来照明领域的重要组成部分。实现白光LED的方法有很多,目前比较有发展前景的方法有两种
通过分析美国医疗器械召回的相关法规,制度等,对美国医疗器械召回信息进行系统介绍;通过对美国医疗器械召回数据库召回信息进行汇总,分析,进行深入研究。对特定品种召回信息进行详
利用生物技术解决环境中日益增长的甾体类激素污染的环境问题,寻找相关的菌及其关键基因就非常重要。本研究利用含1.6-4.1%NaCl的SIN培养基从大连海港附近所取海水样中筛选能
目的探讨建立人巨细胞病毒(HCMV)先天性感染致新生鼠肝炎模型的可行性。方法将HCMV-AD169接种至10周龄Balb/c雌雄小鼠腹腔后,随机选择配对。待雌鼠分娩后取出新生鼠肝脏,进行病
【正】 1986年我们对参加广东省运动会的高校田径队在选拨赛中有代表性的项目进行了生化测验,试图从生化方面对高校运动员的身体机能和训练水平情况作初步的分析。从中发现存
目的探讨塞来昔布对甲状腺髓样癌TT细胞体外生长及细胞周期分布的影响。方法采用3H-TdR掺入法比较不同浓度的塞来昔布对TT细胞增殖的抑制效应,流式细胞术检测肿瘤细胞周期分
近年来,W市文化和旅游业势头正酣,如何依托数字化形式整合公共文旅资源、使其发挥多方面价值迫在眉睫。本文涉及的项目背景主要是某软件开发公司承接的W市文旅云平台项目,依
情感是人对客观事物是否满足自己的需要而产生的一种态度体验.聋生由于先天或后天的主客观原因, 导致其较正常学生 “特” , 有攻击行为和自我封闭两种不良的性情特点.良好的
推荐系统是近年来大数据科学领域的热点问题之一,与之相关的研究不断涌现。本文研究了推荐系统相关的一些算法与模型,主要对决策树进行了研究。本文首先介绍了推荐系统的相关背景和研究现状,设计推荐系统时需要考虑的属性,以及个性化推荐系统的评价体系。其次,分析了推荐系统建模时会用到的特征变量,比较了基于用户和基于物品的最近邻推荐两种协同过滤算法。在对决策树的研究中,有别于以往的决策树划分方式,本文给出了决策树
宁夏六盘山花儿是花儿中不可缺少的重要部分,本文首先简明扼要的介绍了民歌花儿的历史、功能、宁夏地区的花儿,然后介绍了花儿的基本分类以及演唱方法,再通过对宁夏六盘山地