基于BiLSTM-CRF的命名实体识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wang213141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理中的基础内容,其任务是从待处理的文本中识别出具有特定意义的实体,其识别结果对于自然语言处理后续工作有着很强的关联性。中文命名实体识别的主要任务是识别出中文文本中人名、地名和时间等等通用实体,且在专业领域中,命名识别的准确率也尤为重要,例如网络攻防领域信息抽取,智能问答系统,情感分析等任务。命名实体识别在这些专业领域自然语言处理任务中是一项既基础又关键的一环。使用传统方法进行命名实体识别的困难在于严重依赖规则匹配以及人工进行特征提取,并且需要具备专业领域知识才能达到较好的识别效果,并且需要长时间地根据情况的变化维护规则的正确性,因此消耗大量的人力资源并且具有很高的时间成本。随着深度学习的发展与进步以及非结构化文本数据的不断增长,基于深度学习的命名实体识别逐渐凸显出它的重要性。本文使用深度学习的方法,构建一个双向长短时记忆网络模型(Bi-directional Long Short-term Memory Neural Network,Bi-LSTM)并结合条件随机场(Conditional Random Field,CRF),提高命名实体识别的准确率。该模型首先将带标注的文本字符级向量输入到模型中,再根据上下文中的语义关系对实体进行分类标签的打分,然后在CRF层根据标签之间的限制关系确定实体的预测标签,之后通过模型训练减少正确标签与预测标签的误差,提高模型的准确率。本文将使用在网内各大网络攻防网站上收集到的网络攻防语料数据对深度学习算法模型进行实验,实验结果表明,使用该模型进行中文命名实体识别的准确率、召回率和F1 score分别为90.1%、95.4%和93.5%,相较于传统命名实体识别方法效果提升显著。
其他文献
当今,无人驾驶技术已成为未来汽车产业的最新发展方向。而高精地图对于无人驾驶技术的实现有着不可忽视的作用。高精地图市场方兴未艾,竞争激烈,由于数据量极大,更新频度要求高,如何高效生产出高质量的地图数据是整个测绘行业面临的共同挑战。精益生产是当今世界最先进的管理方式之一,推行精益生产可以帮助企业大幅减少浪费、降本增效,帮助企业在愈加激烈的市场竞争中获取竞争优势。本文以生产高精地图数据产品的Z公司为研究
学位
N公司是世界领先的通信设备和网络解决方案提供商,在全球170多个国家和地区拥有自己的产品和解决方案。为了满足5G时代爆发性增长所需的更多功能,N公司必须不断地升级产品。基站是电信运营商采购设备的重点,在N公司的战略规划中占据了制高点。但在产品迭代开发过程中,N公司面临客户需求的多元化、软件规模大、缺陷修复速度缓慢等挑战,需要利用现代项目管理理论指导软件迭代开发过程,提高软件交付的效率、质量等。本文
学位
随着智能终端以及个人电脑应用的普及,任何可以连接到网络的地方且会使用网络的个体都能在互联网上浏览新闻、搜索话题以及抒发自己的见解,国民发表言论的自由程度越来越高。在此环境下,相关机构有必要在社会的各种领域对民众发表的言论进行监督和分析。这种监督和分析不全是为了监控和禁止民众发表言论,在医疗领域可以用较快的速度从众多医护工作者的言论中获取第一手的流行病传染病或其他疾病的信息,以他们的消息作为防控或治
学位
学龄前是自闭症儿童治疗的黄金时期,在这一阶段如果得到科学、适宜的教育,将对自闭症儿童今后的可持续发展起到极为重要的作用。因此,大多数照顾者都需要放弃自己原有的一部分社会角色,专职照顾孩子,尽快适应学龄前自闭症儿童照顾者这一身份。而在这个过程中,照顾者们也存在着和外界接触骤然减少的焦虑感、原有的社会支持逐渐变弱、以及收入减少而花销增加导致的经济压力等,上述多重因素导致学龄前自闭症儿童照顾者存在较高的
学位
随着计算机与互联网高速的发展,网络的范围逐渐突破了传统计算机网络的限制开始融入人们生活的点滴之中。智能家居,智慧医疗等等这些例子都是互联网高速发展并与人类身边事物结合所产生的物联网的鲜明写照。随着人类对网络的依赖逐渐扩大,个人信息生活点滴也全部融入互联网中,这就使得互联网成为了一个巨大的信息仓库。互联网在为人类的生活带来便利的同时也为用户的信息安全留下了不小的隐患,大型服务器遭受攻击,用户私人信息
学位
数字化经济的不断发展,越来越多的行业开始从大量数据中获得有效信息,帮助本行业更好地生产、制造、销售商品。随着中国制造2025的不断临近,工业大数据再次成为行业发展的热点方向,增材再制造作为主力发展方向之一,在过往的大数据管理系统中多存在数据存储方式不合理、对于数据的分析处理难以定制化等问题,因此需要一个可以针对不同类型数据和大量数据进行合理的存储,并提供一套完整的数据存取接口的大数据管理系统。通过
学位
随着移动互联网的高速发展,短视频作为一种新兴媒介正在影响着人们的文化生活,如何结合移动互联网将短视频的独特生态位优势给发挥出来从而塑造良性多元发展的内容产业生态是一个值得探讨的话题。伴随着市场的发展,短视频用户数据呈指数级别爆发式增长,使用传统数据仓库处理海量数据时会出现系统运行不稳定等情况,数据处理、分析和挖掘的效率已经不满足企业的需求。针对该问题,并且结合短视频的业务特点,设计并实现一个性能稳
学位
在计算机算力日益充足和互联网带来的数据量爆炸的影响下,由深度学习引领的人工智能热潮越来越热烈。研究人员与资本不断涌入人工智能领域,将一个个难题破解,持续地推进着人工智能的产品落地。传统的盘点系统需要手动录入商品库存,这种方式效率低并且容易出错,本文研究与设计了以数字语音识别为主体的盘点机数字识别系统(以下简称为语音盘点系统),系统的设计初衷是使得盘点人员可以通过语音直接录入库存以提高盘点效率。本文
学位
面对网络上类别混乱、组织无序的新闻文本,大众有时需要消耗额外的时间去鉴别真正有意义的新闻资讯。为此一些企业选择构建企业内部的新闻平台,制定规范化的新闻分类标准,收集网络上的新闻信息并重新整理和分类,然后提供给企业员工。但如果完全依靠人工对收集而来的新闻进行分类,反而会给企业增添额外的负担。本文设计并实现了一个基于知识蒸馏的新闻分类系统,该系统具有分类模型训练、新闻门户以及后台管理三大模块。在分类模
学位
随着环境问题的日益严重,水污染防治成为国家和社会关注的重点。目前城市污水大多采用生物处理,并通过活泥镜检的方式对处理结果进行检测。然而,传统的活泥微生物镜检大多是人工检测的方式,无法对数据进行快速处理和分析。近年来,作为人工智能的重要分支之一的计算机视觉迅速发展,将视觉计算的方法引入到活泥微生物镜检的过程中,能够快速检测出反映水质状态的指示生物的存在、消失以及运动特征变化,更加高效的检测水质状况。
学位