面向中文微博文本的命名实体识别研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yuzao81927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是指在文本中识别出包含特定意义的命名实体。在互联网时代,以微博为代表的社交媒体中每时每刻都在产生着大量的文本数据,对这些文本进行命名实体识别可以获得相当大的应用价值。目前,针对中文微博文本的命名实体识别仍面临着一些困难:1.微博文本存在着用词不规范、口语化严重等问题,对这些不规范文本的识别准确度仍然很低。2.与英文相比,中文单词之间缺乏明显的边界信息,因此中文命名实体识别通常使用基于字符粒度的词向量嵌入,这将导致丰富的词汇信息无法被利用。3.传统的命名实体识别方法在对大规模数据进行训练时,存在着并行性差,训练速度低下的问题。本文针对以上的问题,提出了一种适合微博文本的文本规范化方法以及一种融合了词典信息的命名实体识别模型。本文的主要工作和贡献如下:1.针对微博文本不规范的问题,提出一种基于多种统计量的非规范词识别方法,并通过分布式词向量技术生成词向量,以词向量之间的余弦距离作为相似度判定标准构建出规范化词典,进行非规范词替换,从而实现文本规范化。后续实验表明,这种规范化方法可以有效的识别并替换微博中的非规范词,进而提高命名实体识别的准确度,规范后的微博文本在BiLSTM-CRF框架下识别精度提升了5.2%。2.针对传统命名实体识别方法无法利用词汇信息的问题,在固定参数的BERT预训练模型的基础上,使用Soft Lexicon词典融入方法融入了词汇信息。在对比实验中使用不同的词典融入方法进行对比实验,在Weibo数据集上的实验结果表明,这种改进的词典融入方法相比于Lattice-LSTM模型不仅在F1值上有着0.64%的提升,训练效率也提升了50%以上。3.针对传统的命名实体识别方法训练速度低下、内部结构复杂的问题,使用双向的QRNN网络代替BiLSTM网络实现特征提取的并行化。后续实验表明,对比BiLSTM-CRF网络,BiQRNN-CRF网络可以在训练时间上缩短50%以上,并拥有相同的识别精度。4.为了弥补固定BERT参数所带来的精度损失,使模型在进行序列标注时可以关注上下文语义,在神经网络层后添加自注意力机制,为对标签预测起到更重要作用的单词分配更大的权重。后续在Weibo数据集中的实验也证明,在其他模型结构完全相同的情况下,加入自注意力层后的识别效果相比不加入自注意力层有着0.62%的提升。
其他文献
随着物理组件和软件组件的深度交织以及互联异构物联网设备的急剧增加,信息物理系统的设计变得越来越复杂。尽管研究人员已进行大量研究,提出了各种模型驱动软件工程方法,来提高信息物理系统设计的生产效率,但缺乏结合人工智能控制策略,从宏观层面对系统进行描述和建模,并支持异构设备和平台的方法。因此,本文提出了面向智能物联网的信息物理系统建模语言AIo TML,来统一物理环境、信息环境的建模和物联网设备的运行,
领导干部的晋升是由很多因素综合作用的结果。本论文是在众多影响领导干部晋升因素中选取人力资本进行研究,试图分析人力资本多大程度影响领导干部晋升。本论文在文献分析和内容分析的基础上,以人事行政理论、彼得原理和社会网络理论为理论依据,选取云南省16个州市副厅级以上领导干部为研究对象,基于现有理论成果提出相应假设,构建了二元logistics回归模型、多元线性回归模型,通过分析其简历,利用SPSS软件分别
与传统VDMOS、沟槽MOS器件不同,功率器件屏蔽栅沟槽(SGT)MOSFET在沟槽中栅极的下方加入了多晶硅屏蔽栅极,并且与源极的电位相同,在垂直耗尽层的基础上又引入了水平方向的耗尽层,能获得近似梯形的电场分布,因此在通过掺杂保证器件导通电阻较小的同时,又能获得更优异的击穿特性;屏蔽栅极同时有利于降低器件的米勒电容,提高器件的开关性能。因此,SGT-MOSFET在中低压领域具有明显的竞争力,广泛应
近年来,随着互联网的普及与发展,在线广告已经成为社交媒体、搜索引擎、电商平台等互联网商业应用和服务的主要盈利方式。在线广告的目标是通过互联网产品,搭建消费者和商家之间信息的通道,为互联网消费者提供符合用户需求的商品信息,为商家宣传商品进而获取客户。在线广告系统中,对于广告主而言,如何将有限的预算合理分配给不同的媒体和渠道,进而通过这些途径给用户投放广告,最终获取最大收益,一直以来是一个十分重要的问
随着改革开放带来的经济发展,我国城市化建设步伐不断加快,国家在社会建设中对土地的需求日益旺盛,集体土地被国家征收不可避免。集体土地征收中失地农民权利现状如何?法律规定与执行是否一致或者冲突?我国相关法律制度存在哪些需要完善之处?文章以贵州省黄平县农民土地征收执行现状和失地农民权利保护现状为例进行探索。全文除绪论外共分四个部分。第一部分主要是基本理论概述,为论文立论提供理论支撑。一是对集体土地征收涉
一、利用手持技术探究二氧化碳的温室效应关于二氧化碳的温室效应,在初中化学教材鲁教版第六单元第三节和人教版七年级初中生物第五章第二节中都有涉及,但是两版教材都是直接给出科学界存在的观点,化学教材也只给了"美国夏威夷冒纳罗亚山顶空气中二氧化碳含量随时间的变化曲线",均没有给出
期刊
近年来,车辆保有量的增多导致公有车位资源愈加紧张。相反,私有停车场存在大量空闲车位,这导致了资源的巨大浪费。针对此问题,智能停车方案应运而生。然而,智能停车方案带来停车便利的同时也引入了新的安全性问题,例如:隐私泄露和公平性。现有的智能停车方案都是基于中心化设计,其中心服务器易受单点攻击,导致用户数据的丢失。而具有去中心化,不可篡改,可公开验证等特性的区块链系统为智能停车场景赋予了新的能力。不幸的
近年来随着机器学习的发展越来越迅速,卷积神经网络在计算机视觉尤其是图像语义分割任务中的应用也越来越广泛。训练高精度的分割网络需要大量的标记数据,但实际应用中数据集的像素级标签难以获取。针对训练中缺少标记数据的情况,分割网络只能通过无监督学习实现微弱的精度提升。为了减少获取真值标签的开销并提高无监督语义分割的准确率,研究人员开始关注迁移学习及域适应策略。迁移学习利用公共大型数据集或其他易于获取真值的
多路径效应降低了伪距和载波相位观测的精度,严重影响了复杂环境下GNSS精密单点定位(Precise Point Positioning,PPP)的收敛性能。近年来,基于时空重复性的多路径改正方法由于其在复杂度及实时性等方面的突出优点,成为学界和业界的研究热点。与传统的时间重复性方法相比,空间重复性方法具有算法简单、易于实施等优势。作为典型的空间重复性改正方法,多路径半天球图(Multipath H
高送转方案曾经是我国A股市场上市公司热衷采用的利润分配方式。上市公司能够通过高送转方案快速扩大股本、增加股票的流动性。然而,高送转概念却被恶意炒作,成为内部人进行利益输送的方式,不少“低股价、低业绩、高股本”的企业跟风实施高送转方案,损害中小投资者利益,引起监管部门的重视。2018年,沪深交易所发布高送转新指引,明确了不同板块高送转的定义,且对高送转企业作出进一步要求。这一举措令不少上市公司想借助