基于BiLSTM-CRF模型的中文命名实体识别研究与实现

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:qiangchengshimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的一个分支以及一个关键技术,其任务目标是识别出文本数据中存在的特定意义或者指代性强的实体名,其识别结果将进一步影响到自然语言处理的后续任务。随着深度学习理论与技术的发展,面对不断增长的非结构化文本数据,基于深度学习的命名实体识别将具有非常重要的意义。本文使用深度学习的方法,以单向的LSTM-CRF模型为基准模型,构建一个改进的BiLSTM-CRF中文命名实体识别算法模型,以人名、地名、组织名作为命名实体识别目标,并将该命名实体识别算法模型成功应用在实践中。具体的工作如下。第一,针对单向的LSTM-CRF模型中存在的不足之处,单向的LSTM网络结构只可以学习单向的文本序列信息,不能真正做到学习文本序列的上下文信息。本文将对单向的LSTM网络结构构建为双向的LSTM网络结构,构建一个BiLSTM-CRF的算法模型,从而有助于对文本序列的上下文信息提取。第二,引入注意力机制,通过在BiLSTM-CRF算法模型中加入一个Attention层,设计并得到一个改进的BiLSTM-CRF命名实体识别算法模型。在该模型中,BiLSTM层用于对文本序列进行上下文信息的全局特征提取,Attention层用于对文本序列做重要度计算获得局部特征,最后CRF层可以实现对文本输出序列进行标注规则的学习,计算得到最佳的识别结果。本文将使用《人民日报》语料数据对三种命名实体识别算法模型进行实验对比,与单向的LSTM-CRF模型和BiLSTM-CRF模型相比,改进后的算法模型在总体命名实体识别的F值分别提升了3.86%和1.46%,最佳F值可达89.8%,能够基本满足对文本数据中命名实体的识别要求。最后本文对该算法模型的接口进行封装和界面化,通过以WEB服务的方式将中文命名实体识别系统实现并应用于实际场景中。
其他文献
以河北省邢台市隆尧县南水北调配套水厂为例,从水厂建设规模、工艺选择、配水管材选择、运营风险控制等方面进行分析,对配套水厂建设和运营管理提出建议和参考。
对1999年6月-2000年5月的世界燃气轮机市场订货量作了简要的回顾与分析.
利用Yong分析方法对航改型舰用燃气轮机动力涡轮进行了分析和讨论,并就改型中涉及到的对压气机,发动机的外函道的修改对整个装置的Yong损失率的影响进行了分析。
以国际市场成熟的一流燃气轮机为对象,研究其组成的联合循环装置的热力性能,并对设备订货情况进行统计比较,研究结果对联合循环机组的方案设计有参考价值。
对闽江河口区不同盐度短叶茳芏沼泽湿地沉积物C、N、P含量的空间变化进行研究,探讨影响生源要素含量变化的原因,并对其进行生态风险评价。结果表明,短叶茳芏沼泽湿地沉积物不
目的研究射频消融术治疗阵发性室上性心动过速的有效性、安全性及如何最大程度降低并发症的发生.方法室上性心动过速32例,对其中房室折返性心动过速17例,房室结折返性心动过
科技创新大大推动了经济发展的速度,经济的飞速发展又可以极大地促进区域综合竞争力的提升。上海在作为我国的经济、金融、贸易、航运中心的基础上,也在积极努力推进科技创新
男女住院精神病人480例临床资料分析王水生,崔荣立资料与方法从我院1990~94年1000多例出院病历中抽出480例进行系统的回顾性调查,凡入选病历按CCM-2诊断标准重新确立诊断,其中男250例,女230例。结果1.家族史阳性
超轻多孔金属材料的高孔隙率使其具有独特的多功能复合特性,包括质量轻、高比强度、高比刚度、耐冲击、降噪散热、多功能集成等优良特性,广泛地应用于汽车、轨道交通、飞机和船舶等交通工具的能量耗散装置中。超轻多孔金属材料的广泛应用不仅会大幅度降低对常规能源的需求,同时还可以减少环境污染。蜂窝结构属于典型的超轻多孔金属材料,在压缩过程中特殊的变形模式和蜂窝胞壁的塑性变形能吸收大量的能量,从而达到缓和冲击力,被
有机磷农药中毒是对乙酰胆碱酯酶的抑制。引起乙酰胆碱蓄积,使胆碱酯神经受到持续冲动,导致先兴奋后衰竭的一系列毒蕈碱样,烟碱样中枢神经症状;严重者可因昏迷和呼吸衰竭而死亡。