面向司法领域的中文命名实体识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiangsyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
司法领域的中文命名实体识别是对裁判文书中的各类实体进行准确地识别,是司法人工智能领域后续应用的基础性工作。由于司法标注语料的严重匮乏以及法律文本独特的行文特点限制,国内对于此方面的研究相对较少。本文对裁判文书的行文特点进行分析,并结合深度学习方法针对司法领域的中文命名实体识别任务展开研究。主要的工作内容如下:(1)针对司法领域公开标注语料缺失的问题,人工构建了一个基于裁判文书的命名实体语料库Legal-NER。从中国裁判文书网获取生语料后进行预处理,对语料进行行文特点分析,设计合理的实体标注规范。将“YEDDA”工具二次开发后进行多轮迭代标注工作,最后对Legal-NER语料库进行质量分析与数量统计,语料库包含6189个句子和19806个实体,标注一致性为0.97。(2)提出了一种词汇增强的中文命名实体识别模型。考虑到词汇所蕴含的语义表达和词边界信息,本文在字粒度的命名实体识别模型基础之上,提出了一种基于自适应嵌入范式的词汇增强方法。该方法通过匹配领域词典,构建多个以字符所在词汇的不同位置作为划分的词集合,再将词集合以基于词频统计的方式进行压缩与向量化,最后利用注意力机制将词汇信息有效整合到字表示中,达到词汇增强的目的。模型选用BiLSTM作为编码器,输入CRF层进行标签预测。经过实验验证,该模型相比于字级别的BiLSTM-CRF基线模型在查准率、查全率和F1值方面均有所提高。(3)提出了一种多特征融合的中文命名实体识别模型。针对中文文本“字词表征单一、语义信息匮乏”的问题,本文提出了一种融合多特征的词嵌入表示方法。考虑到预训练语言模型能够学习到更丰富的语义信息,并且具有强大的泛化能力,因此本文使用BERT替代Word2vec生成字向量。汉字的拼音与其语义高度相关,能够提供额外的语音和语义信息,因此本文提出了一种压缩字母表表示法表征读音信息,与词向量融合后进一步实现对词汇信息的读音增强。考虑到五笔可以体现汉字的字形结构特征,因此本文使用CNN处理汉字的五笔编码序列,提取汉字的五笔字形特征,有效地丰富了汉字字符的信息表示。将BERT字向量、读音增强词向量和五笔字形向量拼接融合后作为向量表示层,后续结构使用BiLSTM+CRF模型实现上下文特征提取与标签解码功能。在实验部分,通过消融实验验证了各个模块的有效性,相较于BiLSTM+CRF基线模型在F1值上的提升为6.67%,查准率、查全率和F1值分别为90.60%、91.77%和 91.18%。
其他文献
战场环境的复杂性、信息的多样性、状态的多变性,为电子干扰带来了巨大的挑战。随着认知电子战的快速发展,具备自适应能力的干扰决策技术备受关注。如何在复杂环境下智能地进行雷达工作模式的识别和干扰样式的选择成为当前干扰决策亟待解决的问题。机器学习是一种智能的数据分析工具,本文研究基于机器学习的雷达干扰决策技术。雷达工作模式的识别是干扰和评估的重要依据,但是新体制雷达的发展,加大了雷达工作模式识别的难度。为
学位
与其他国家相比,我国寿险行业起步较晚,不过我国寿险行业增长迅速,2020年我国寿险保费收入已高达23982亿元。但是从寿险密度、寿险深度来看,我国寿险行业的人均保费收入和在经济总值中的比重都较低。在人口方面,我国人口结构正处在转变时期,人口老龄化程度不断加深,我国人口政策也由早期的计划生育政策向全面二孩政策方向转变,这些因素都对我国寿险行业的发展产生重要影响。在我国寿险区域发展不平衡、人口结构发生
学位
深度学习发展至今已经衍生出了多种多样的算法网络,最具代表性的算法之一就是卷积神经网络,其在语音、图像、自然语言处理等各个领域都取得了惊人的成就。如今常用卷积神经网络的计算环境多为CPU或GPU,巨大计算量带来了功耗及成本问题,因此其实际应用常常面临诸多限制。此外,卷积神经网络结构变化迅速,新的模型和优化方法不断出现,针对不同应用领域结构通常不同。因此,设计一款通用可编程可重构且既能够满足存储和速度
学位
随着现代半导体技术的进步,物联网设备、个人终端设备等以微控制器为主的产品迅猛发展。微处理器作为核心控制单元,其设计要求也从单一追求有效控制向高性能低功耗兼具转变。由于现代微处理器芯片的复杂工作场景导致的散热、续航问题越发严重,使得处理器芯片的低功耗研究具有重要研究价值。本论文研究了 14纳米工艺制程下处理器的基本结构与工作模式,基于Synops ys公司ARC处理器的基础上设计了一套电源域管理系统
学位
雷达散射截面(RCS)作为表征飞机、舰艇等各种军事目标散射特性的一个重要参数,一直以来都是国内外的研究热点。近场测量是目前研究目标雷达散射截面的一个主要手段之一。相较于传统的远场测量和紧缩场测量,近场测量具有测试空间小、捕获信息量大、测量精度高、保密性强、受外界干扰小等优点。尽管近场散射测量技术已有几十年的研究与发展,但在一些细分领域中仍存在着诸多问题尚待研究解决。基于此,本文主要对基于逆合成孔径
学位
随着现代信号处理算法的快速发展,应用场景的日益复杂,信号处理算法复杂度逐渐提升,迭代速度日益加快。传统信号处理平台硬件及软件定制化的设计难以适应算法的快速迭代,许多新兴算法应用到工程中需要较长的开发周期,这阻碍了实验算法到工程算法的转化速度;同时复杂的国际形势使得信号处理硬件平台面临国外技术封锁的潜在威胁。因此,研究一种可以满足各种信号处理算法要求、可以快速开发部署的国产通用化的信号处理平台软件具
学位
在军用和民用领域,基于雷达传感器的海杂波背景下的目标检测问题是一个重点和难点问题。雷达工作在对海模式时,接收的回波中由地杂波、海杂波、海面目标回波等各种类型回波组成,十分复杂。为了避免以岛礁回波为代表的地杂波对后续海面目标检测的影响,使后续目标检测处理能够针对海洋区域,提高检测准确率和效率,在对整个海面进行目标检测之前,通过海陆分割算法将回波中的杂波划分为海杂波和地杂波显得十分必要。当前的海陆分割
学位
工业生产过程中,常需对生产工件进行无损检测以检验工件的性能。超声显微检测技术能够利用超声波的传播特性显示样品表面和内部的缺陷或分层信息,是一种无损检测的有效方式。随着器件小型化的发展越来越迅速,需要检测的缺陷尺寸也越来越小,超声无损检测的分辨率也需要不断提高。为实现微米级缺陷的超声无损检测,本文研制了一套高精度、高分辨率的超声扫描显微系统。本文的主要工作如下:(1)实现了超声扫描成像系统的硬件搭建
学位
卫星通信相控阵天线具有覆盖范围广、信息传输速率高的优势,且能够进行快速波束扫描,是无数天线工作者的重要研究课题之一。对于卫星通信相控阵天线的双圆极化、宽带大角度扫描两大特性更是学者们进行设计研究的重难点部分,科研意义重大。为此,本文的分析研究主要针对双圆极化馈电网络、双圆极化相控阵天线的设计以及相控阵天线宽带宽角的扫描展开。主要的工作内容概述如下:(1)对卫星通信天线双圆极化馈电网络进行研究。为达
学位
随着时代的发展,语音在人们的生活中越来越重要,但是现实世界背景下往往会掺入很多背景噪声。这会导致语音质量的下降,因此在这种背景下,语音增强技术成为一个热点。除了传统的语音增强方法,基于深度学习的语音增强方法已经在语音增强领域占有一席之地。它能够通过神经网络直接实现带噪语音到目标语音的映射,避免了传统方法往往需要估计噪声谱的弊端,提升语音增强的效果。基于卷积神经网络的语音增强模型表现良好,但深度神经
学位