面向智慧检务的案件要素抽取关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Heat05041094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能愈发炙手可热,深度学习技术在司法领域中的应用得到广泛的关注和研究。司法公开三大平台的建设,推动了司法领域的信息化,大规模的裁判文书数据库为检索历史案例、分析犯罪现象等工作提供了方便。与此同时,如何有效地使用海量的数据,帮助法律从业者快速、精准地对裁判文书进行阅读和分析,成为当下亟需解决的问题。本文面向智慧检务,利用深度学习模型对基于命名实体识别的案件要素抽取技术进行了研究和比较。命名实体识别是自然语言处理的基础任务,从法律文书中提取描述案件信息的命名实体,能够帮助专业人士在短时间内迅速掌握文书的关键内容,提高工作效率,为法律从业者提供参考,同时也是构建司法领域知识图谱等任务的基础。对大量刑事案件的案件判决文书进行细致深入的阅读和分析后,本文总结出判决文书中的九类关键要素,分别是时间、地点、组织、被告人、被害人、金额、物件、伤情和罪刑。这些要素能够描述案情关键信息,是对被告人做出判决和量刑时的重要依据。由于现有的数据集在实体类别上难以满足要求,本文从CAIL2018的数据集中选取近800篇裁判文书,按照规定的实体类别对文本进行标注,构建标注数据集。本文运用四种深度学习模型,进行了九类命名实体的识别工作,比较并分析了实验结果。首先采用双向LSTM-CRF模型实现NER,利用Word2vec工具训练字向量,输入双向LSTM网络进行编码。双向LSTM的记忆机制解决了距离依赖问题,网络的隐藏层输出中含有上下文特征表达,再经过CRF模型的维特比算法输出标注序列,最终在标注语料库上获得了84.02%的F1值。为了改进模型效果,本文采用CNN-BILSTM-CRF模型,在双向LSTM-CRF模型的基础上增加了CNN层,通过卷积操作学习字符层面的特征语义,最终F1值提高了7.28%,达到91.30%。BERT是近年备受瞩目的深度学习模型,但目前把BERT应用在智慧检务领域中的研究较少。为了改进Word2vec不能解决一词多义、难以获得长距离字间特征的缺陷,本文使用BERT训练字向量,利用双向Transformer编码器一次性读取整个序列,获得句子中任意两个位置上的字间特征。BERT-CRF模型在识别任务中F1值达到80.17%。加入双向LSTM网络,在BERT输出的特征向量上做进一步语义抽取后,F1值有了5.32%的提升。本文四种模型中性能最好的是CNNBILSTM-CRF模型。
其他文献
实行稳健的财政政策和从紧的货币政策,是为了合理引导社会通胀,通过降低货币流通速度来缓解通胀水平的进一步上升。实施货币从紧政策,应努力发展优质客户,提高信贷资产质量,增强业
腐霉枯萎病是秦皇岛市草坪常发病之一。具有危害大、分布面广、发病率高等特点.严重影响草坪功能的发挥。笔者经过全面调查、系统研究和长期工作实践,总结了一套行之有效的防治
以菠菜为对象,用不同有机溶剂处理,对研磨法、浸提法和超声波萃取法提取叶绿素的效果进行比较研究。结果表明,3种提取方法的最佳提取剂分别为:研磨法为丙酮与无水乙醇1∶1、直
近几年,房价的上涨与老百姓住房需求的上涨可谓是"并肩而行"。对于对住房无限渴望的老百姓而言,高涨的房价也只能使他们望而却步。在这种局面下,如何加大保障性住房的建设力
期刊
广源58是华中农业大学选育的一个早熟、高产、优质杂交油菜新品种。2007年11月通过长江中游国家审定,审定编号:国审油2007004.并即将通过长江上游和下游国家审定。该品种在湖北
随着苹果公司iPad上市,美国有众多报道关注电子书定价的“代理模式”。3月28日-4月3日的一周,亚马逊网站很多Kindle电子书不见了,亚马逊网站向读者保证,这一问题会在4月3日前解决
为探讨脂蛋白(a)及氧化型脂蛋白(a)在巨噬细胞上的结合和降解途径,将生物素标记的脂蛋白与小鼠腹腔巨噬细胞进行结合和竞争性结合试验.结果发现,脂蛋白(a)能以一定的亲和力、
今年的“世界图书和版权日”适逢北京奥运会倒计时107天,为推动全民读书阅读活动,为北京奥运的顺利举办尽一份力量,北京出版社出版集团在北京第三极书局举办主题为“阅读新北京
随着我国城镇化步伐的加快和人口压力的增加,如何加快对城镇环境的治理与保护,从而促进人口、环境和资源的可持续发展,成为目前思考的重点。因此,构建城镇污水处理系统,加快
为提高无法准确建立数学模型的非线性约束单目标系统优化问题的寻优精度,并考虑获取样本的代价,提出一种基于支持向量机和免疫粒子群算法的组合方法(support vector machine