论文部分内容阅读
[目的]探索法律判决书中不同模型的实体识别效果,为后面法律知识库的构建做些基础性工作。[方法]提取刑事判决书中的庭审过程和法院意见来构造数据集,比较人工构造特征的CRFs模型和加入预训练词向量做文本表示的自动生成特征的IDCNN-CRFs模型与BiLSTM-CRFs模型的实体识别效果,并在少量其他类型法律判决书文本上比较模型的迁移能力。[结果]实验表明ALBERT-BiLSTM-CRFs模型实体识别效果最好,F1微平均值达95.28%,IDCNN-CRFs模型的识别效果低于前者,但训练时间是前者的1/6,两个模型均具有较好的迁移能力。[局限]识别的实体多为通用实体,后续考虑标注更多领域特有实体,增强研究对实际应用的参考价值。[结论]法律判决书的实体识别中ALBERT-BiLSTM-CRFs和IDCNN-CRFs模型比CRFs模型效果更好且迁移能力更强。