基于机器学习的智能法务系统中事件实体抽取的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lhyzb364
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的不断发展,新技术为各行各业的升级带来了更多可能。其中,“智能司法”是各大机构深入研究的重点。在司法实践当中,大规模的司法数据、笔录信息和裁判文书为研究历史案例、分析犯罪情况和裁决案件结果等工作提供了经验指导。如何高效、准确地使用这些数据,帮助司法领域的法律职业人员阅读、分析文本成为当下需要解决的重点问题。论文从实际需求出发,开展了针对法律文本事件实体抽取方法相关研究,主要工作和创新点如下:(1)提出并构建了包含七项法律事件实体的数据集。对大量案件判决文书进行分析整理之后总结出了司法文书中具有代表性的人物、时间、地点、组织机构、金额、伤情、罪责七项关键实体,提前准确了解这些代表性实体要素有助于提升案件各环节工作效率。由于现有司法领域数据集数量较少、实体针对性不强,本文对2018、2019年CAIL法研杯及部分网上公开判决书进行了实体标注,同时结合北京大学计算语言学研究所发布的1998年上半年语料作为数据集。(2)提出了基于字嵌入特征向量化组合模型的抽取方法。针对法律事件实体抽取过程中实体的复杂性与大量融合上下文语境的特点,设计了基于字嵌入特征向量化与双向长短期记忆网络组合的抽取方式,并针对其结果中的问题增加了状态转移矩阵层优化输出结果,通过对比实验验证了模型的准确性。(3)提出了基于动态表征字向量组合模型的抽取方法。通过分析特征向量化组合模型针对人物、地点等复杂实体的局限性,在其基础上提出了基于动态表征字向量组合模型的方式,根据上下文不同信息动态调整实际字向量,提高事件实体识别准确率等指标。(4)实现了基于动态表征字向量组合模型抽取系统。在分析法律事件实体抽取系统功能需求的基础上,设计了系统总体架构和各个功能模块,结合实际实体抽取示例展示了系统功能。本文采用 BERT(Bidirectional Encoder Representations from Transformers)模型获取动态表征字向量,目前BERT与智能法务方向结合研究较少,针对传统预训练模型的,其主要特点在于能解决在不同语言环境中的一词多义问题,同时也能获得长距离字词间的特征,从而更好地理解复杂文本的本意。本文采用的基于动态表征字向量组合模型BERT-BiLSTM-CRF,获得了较高的准确率,并且最终调和平均数FB1也提高到了 94.95%的平均值。
其他文献
珊瑚礁作为典型脆弱生态系统,易受到环境条件和人类活动等多源因素的影响.以中国造礁石珊瑚集中分布的最北界——福建东山为研究区域,在空间分析技术的支持下将自然-社会-经济因素融入珊瑚礁脆弱性评价指标体系,基于ESA(Exposure-Sensitivity-Adaptive capacity)模型建立近岸多源环境因素影响下珊瑚群落的生态脆弱性评价方法,评估珊瑚群落生态脆弱性的等级和空间分布,探索环境因素与珊瑚群落状态之间的定量关系,为珊瑚群落生态保护和管理提供科学依据.结果表明,东山研究区珊瑚群落的生态敏感性
随着工业社会的快速发展,电网输变电设备日常检修维护工作中积累了大量设备故障案例检修记录,其中包含故障案例发现、判断、检修的知识,对现场运检人员遇到新故障时快速判断和检修决策具有重要参考价值。文本匹配技术可以从大量的故障案例数据中挖掘出与目标故障案例相似度高的案例,并将关键知识提供给现场检修作业人员,辅助支持故障维修的决策过程。目前,文本匹配技术取得了不错的研究进展,大多是模型采用语义编码的方法提取
水生植物水体修复技术是一种操作简单、成本低且生态友好的环境修复方式,已被广泛用于水质净化和生态修复中.但由于水生植物的种类繁多,目前选择水生植物存在一定盲目性,而其不当选择会导致植物长势不佳、净化效率低、资源化利用潜力低等问题.因此,文章构建了水质净化与生态修复植物优选指标体系.在优选植物时,应根据功能、生长特性和生物量资源化利用3个方面考虑适用度.其中,功能指标是需要关注的核心指标,包括水质净化能力和生态修复能力,分别可从促进悬浮物沉降、水体增氧、藻类抑制、氮磷吸收及蓄积、促进有机物污染物降解、重金属吸
近些年来,智能手机上的拍照人脸美颜功能深受用户喜爱,各大主流的美颜APP借此各自收割了广大的用户群体,创造了巨大的商业价值。而后,随着深度学习的迅猛发展,许多计算机视觉领域的先进算法被应用于图片中人物的体态美化,并取得了比较好的效果,智能美体也因此成为各大主流美颜APP厂商的卖点。为实现更低成本、自然的美体效果,本文提出了一套基于先验知识和深度特征的智能美体方案,并最终设计与实现了一款智能美体AP