论文部分内容阅读
随着人工智能技术的不断发展,新技术为各行各业的升级带来了更多可能。其中,“智能司法”是各大机构深入研究的重点。在司法实践当中,大规模的司法数据、笔录信息和裁判文书为研究历史案例、分析犯罪情况和裁决案件结果等工作提供了经验指导。如何高效、准确地使用这些数据,帮助司法领域的法律职业人员阅读、分析文本成为当下需要解决的重点问题。论文从实际需求出发,开展了针对法律文本事件实体抽取方法相关研究,主要工作和创新点如下:(1)提出并构建了包含七项法律事件实体的数据集。对大量案件判决文书进行分析整理之后总结出了司法文书中具有代表性的人物、时间、地点、组织机构、金额、伤情、罪责七项关键实体,提前准确了解这些代表性实体要素有助于提升案件各环节工作效率。由于现有司法领域数据集数量较少、实体针对性不强,本文对2018、2019年CAIL法研杯及部分网上公开判决书进行了实体标注,同时结合北京大学计算语言学研究所发布的1998年上半年语料作为数据集。(2)提出了基于字嵌入特征向量化组合模型的抽取方法。针对法律事件实体抽取过程中实体的复杂性与大量融合上下文语境的特点,设计了基于字嵌入特征向量化与双向长短期记忆网络组合的抽取方式,并针对其结果中的问题增加了状态转移矩阵层优化输出结果,通过对比实验验证了模型的准确性。(3)提出了基于动态表征字向量组合模型的抽取方法。通过分析特征向量化组合模型针对人物、地点等复杂实体的局限性,在其基础上提出了基于动态表征字向量组合模型的方式,根据上下文不同信息动态调整实际字向量,提高事件实体识别准确率等指标。(4)实现了基于动态表征字向量组合模型抽取系统。在分析法律事件实体抽取系统功能需求的基础上,设计了系统总体架构和各个功能模块,结合实际实体抽取示例展示了系统功能。本文采用 BERT(Bidirectional Encoder Representations from Transformers)模型获取动态表征字向量,目前BERT与智能法务方向结合研究较少,针对传统预训练模型的,其主要特点在于能解决在不同语言环境中的一词多义问题,同时也能获得长距离字词间的特征,从而更好地理解复杂文本的本意。本文采用的基于动态表征字向量组合模型BERT-BiLSTM-CRF,获得了较高的准确率,并且最终调和平均数FB1也提高到了 94.95%的平均值。