基于机器学习的智能法务系统中事件实体抽取的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lhyzb364
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的不断发展,新技术为各行各业的升级带来了更多可能。其中,“智能司法”是各大机构深入研究的重点。在司法实践当中,大规模的司法数据、笔录信息和裁判文书为研究历史案例、分析犯罪情况和裁决案件结果等工作提供了经验指导。如何高效、准确地使用这些数据,帮助司法领域的法律职业人员阅读、分析文本成为当下需要解决的重点问题。论文从实际需求出发,开展了针对法律文本事件实体抽取方法相关研究,主要工作和创新点如下:(1)提出并构建了包含七项法律事件实体的数据集。对大量案件判决文书进行分析整理之后总结出了司法文书中具有代表性的人物、时间、地点、组织机构、金额、伤情、罪责七项关键实体,提前准确了解这些代表性实体要素有助于提升案件各环节工作效率。由于现有司法领域数据集数量较少、实体针对性不强,本文对2018、2019年CAIL法研杯及部分网上公开判决书进行了实体标注,同时结合北京大学计算语言学研究所发布的1998年上半年语料作为数据集。(2)提出了基于字嵌入特征向量化组合模型的抽取方法。针对法律事件实体抽取过程中实体的复杂性与大量融合上下文语境的特点,设计了基于字嵌入特征向量化与双向长短期记忆网络组合的抽取方式,并针对其结果中的问题增加了状态转移矩阵层优化输出结果,通过对比实验验证了模型的准确性。(3)提出了基于动态表征字向量组合模型的抽取方法。通过分析特征向量化组合模型针对人物、地点等复杂实体的局限性,在其基础上提出了基于动态表征字向量组合模型的方式,根据上下文不同信息动态调整实际字向量,提高事件实体识别准确率等指标。(4)实现了基于动态表征字向量组合模型抽取系统。在分析法律事件实体抽取系统功能需求的基础上,设计了系统总体架构和各个功能模块,结合实际实体抽取示例展示了系统功能。本文采用 BERT(Bidirectional Encoder Representations from Transformers)模型获取动态表征字向量,目前BERT与智能法务方向结合研究较少,针对传统预训练模型的,其主要特点在于能解决在不同语言环境中的一词多义问题,同时也能获得长距离字词间的特征,从而更好地理解复杂文本的本意。本文采用的基于动态表征字向量组合模型BERT-BiLSTM-CRF,获得了较高的准确率,并且最终调和平均数FB1也提高到了 94.95%的平均值。
其他文献
珊瑚礁作为典型脆弱生态系统,易受到环境条件和人类活动等多源因素的影响.以中国造礁石珊瑚集中分布的最北界——福建东山为研究区域,在空间分析技术的支持下将自然-社会-经济因素融入珊瑚礁脆弱性评价指标体系,基于ESA(Exposure-Sensitivity-Adaptive capacity)模型建立近岸多源环境因素影响下珊瑚群落的生态脆弱性评价方法,评估珊瑚群落生态脆弱性的等级和空间分布,探索环境因素与珊瑚群落状态之间的定量关系,为珊瑚群落生态保护和管理提供科学依据.结果表明,东山研究区珊瑚群落的生态敏感性
为了解决好氧堆肥过程中氮损失大、产恶臭、堆肥周期长等问题,研究酶解预处理联合生物强化对城市污泥和秸秆混合堆肥过程中有机物降解、氮素转化、氨和硫化氢释放等的影响.使用复合酶(蛋白酶?淀粉酶?纤维素酶?溶菌酶=1?1?1?1)酶解预处理污泥,设置使用150 mL菌剂(堆体E1)和75 mL菌剂混匀(堆体E2)以及表面喷洒(堆体E3)3种生物强化方式,对照堆体A只进行厌氧水解预处理污泥.结果表明,酶解预处理后,污泥中溶解性COD、溶解性蛋白和多糖质量分数分别比初始增加了485.22%、149.15%和108.7
随着工业社会的快速发展,电网输变电设备日常检修维护工作中积累了大量设备故障案例检修记录,其中包含故障案例发现、判断、检修的知识,对现场运检人员遇到新故障时快速判断和检修决策具有重要参考价值。文本匹配技术可以从大量的故障案例数据中挖掘出与目标故障案例相似度高的案例,并将关键知识提供给现场检修作业人员,辅助支持故障维修的决策过程。目前,文本匹配技术取得了不错的研究进展,大多是模型采用语义编码的方法提取
水生植物水体修复技术是一种操作简单、成本低且生态友好的环境修复方式,已被广泛用于水质净化和生态修复中.但由于水生植物的种类繁多,目前选择水生植物存在一定盲目性,而其不当选择会导致植物长势不佳、净化效率低、资源化利用潜力低等问题.因此,文章构建了水质净化与生态修复植物优选指标体系.在优选植物时,应根据功能、生长特性和生物量资源化利用3个方面考虑适用度.其中,功能指标是需要关注的核心指标,包括水质净化能力和生态修复能力,分别可从促进悬浮物沉降、水体增氧、藻类抑制、氮磷吸收及蓄积、促进有机物污染物降解、重金属吸
为了探索电化学储能系统在数据中心规模应用的可行性及先决条件,对中国移动上海国际数据中心电化学储能系统的试点应用案例进行了详细分析,通过采集实际运行数据,对其从成本、循环寿命、安全性管控、可靠性、投资回报等方面进行技术、经济验证,助力中国移动降本增效,助力信息通信行业加速实现“双碳”目标.
农田土壤和水环境重金属污染修复是保障中国农业安全生产迫切需要解决的问题.在诸多修复技术中,植物修复技术具有低成本、易操作、环境友好等突出优势.水芹作为一种常见的水生蔬菜,具有发达的维管束组织,且适应性强,对水体和土壤中的重金属表现出较强的富集能力,因此被广泛用于环境污染修复中.文章针对水芹对不同重金属元素的吸收累积能力、不同器官的重金属累积特性、重金属耐性机理、以及在环境污染修复中的应用现状进行了综述.主要结论为:(1)水芹对土壤和水体环境中重金属Cd、Zn、Pb、Cu、Hg、As、Ag、Au等元素具有较
变换器采用LLC技术可在全负载范围内实现软开关.针对某控制系统供电的应用需求,基于LLC技术,并采用新兴SiC功率MOSFET器件,设计研制了一款26 V输出,额定功率为1 kW的DC/DC谐振变换器,满足变换器高压输入、高开关频率的要求,实现了变换器小型化、高功率密度的设计,同时由于软开关的实现,降低了变换器损耗,最终效率达到94%以上.
近些年来,智能手机上的拍照人脸美颜功能深受用户喜爱,各大主流的美颜APP借此各自收割了广大的用户群体,创造了巨大的商业价值。而后,随着深度学习的迅猛发展,许多计算机视觉领域的先进算法被应用于图片中人物的体态美化,并取得了比较好的效果,智能美体也因此成为各大主流美颜APP厂商的卖点。为实现更低成本、自然的美体效果,本文提出了一套基于先验知识和深度特征的智能美体方案,并最终设计与实现了一款智能美体AP
通信基站后备电池的性能优劣是影响通信网络运行稳定的重要因素.基于近期相关具有实用性的研究成果,阐述了基于XGBoost算法的电池性能预测的软件设计与实现.系统通过读取已有的动环监控数据报表,选取8个环境变量作为特征量对模型进行训练,从而实现对电池性能的快速准确预估.经过试验样本与实际生产数据的检验,该系统性能优于现有方案,已在江苏铁塔推广使用.
随着碳达峰、碳中和目标的提出,数据中心作为新基建、数字化时代的信息支柱,同时也是“能耗大户”,如何加快数据中心行业的绿色发展、降低碳排放,成为了推动我国实现碳中和目标的重要话题.聚焦数据中心的供配电系统,基于供配电系统架构和供电设备,系统全面地梳理分析电源节能技术原理及技术特点,并给出电源节能技术的应用推广建议.