【摘 要】
:
近些年,随着国家法制建设的推进,如何通过信息抽取技术从海量司法文书中获取有用信息,助力于“智慧司法”建设,已成为自然语言处理领域中的研究热点。其中,关系抽取作为司法信息抽取技术中的关键技术之一,不仅能够帮助办案人员进行案件要素的关系梳理,提高办案效率,还可为司法问答、司法推理、司法知识图谱构建提供重要的技术支持,因此,其研究意义重大。然而由于司法文本的复杂性和特殊性,导致各罪名案件间的关系诉求存在
【基金项目】
:
科技部“十三五”国家重点研发计划, 公诉案件证据关联分析与案情辅助研判No.2018YFC0830603, 2018.7-2021.6;
论文部分内容阅读
近些年,随着国家法制建设的推进,如何通过信息抽取技术从海量司法文书中获取有用信息,助力于“智慧司法”建设,已成为自然语言处理领域中的研究热点。其中,关系抽取作为司法信息抽取技术中的关键技术之一,不仅能够帮助办案人员进行案件要素的关系梳理,提高办案效率,还可为司法问答、司法推理、司法知识图谱构建提供重要的技术支持,因此,其研究意义重大。然而由于司法文本的复杂性和特殊性,导致各罪名案件间的关系诉求存在较大差异,这给关系抽取的研究工作带来了很大的挑战。首先,针对司法二元关系抽取任务中,由于实体间的跨阶依存导致语义学习不充分的问题,提出一种基于主题模型的加权图卷积网络(Tp-WGCN),该方法采用改进的LAM算法构建邻接矩阵,不仅有效避免了跨阶依存信息的丢失,还提高了模型的推理能力。该方法还提出了一种基于主题模型的实体信息增强方法,进一步丰富了实体的知识信息。本文还构建了包含5种关系的涉毒类案件关系抽取数据集。在该数据集上,Tp-WGCN与PA-LSTM、伴随注意力机制的图卷积网络等模型相比,模型的F1值可提升1.3%,性能表现优异。其次,针对司法复杂关系抽取中,由于司法文书情节描述繁杂、实体关系交错,导致实体重叠的问题,本文提出一种基于刑事Electra(CriElectra)的编-解码关系抽取模型来解决多重关系抽取问题。该方法采用司法预训练语言模型CriElectra捕获文本信息,并通过胶囊网络进行关系分类,不仅让词表示蕴含更丰富的领域信息,还有效防止了矢量信息丢失。此外,本文还构建了包含10种关系的故意伤害罪关系数据集,其中多重关系占7.6%。在该数据集上,模型的F1值可达79%,有效实现了多重关系的识别。最后,针对自然语言处理中各研究技术落地难度较大、非研究人员无法直接理解模型结果等问题,本文基于关系抽取的研究工作,结合前端技术,进行关系抽取可视化工作。对于用户提交的案件文本,该系统可自动识别案件类别,并选择不同的文本处理方式处理文本,然后将处理之后的数据输入到关系抽取模型,实现关系抽取。抽取结果在前端页面将以文本、关系图的方式进行展示,方便大家研究学习。
其他文献
企业在长期应用CAD技术进行设计活动中积累了大量的三维CAD模型。如何挖掘现有CAD模型的价值,实现对已有设计的重用和参考成为了人们的现实需求。本文利用零件间的约束和配合信息对三维装配体模型检索技术进行了研究。根据装配体中零件间的装配约束与零件间运动关系的映射,将装配体表达成运动关系邻接图。利用改进的VF2算法搜索两个装配体运动关系邻接图最大公共子图,从而得出了两个装配体相似子结构中零件的对应关系
相关统计数据显示,世界范围内宫颈癌的发病率在女性恶性肿瘤中排名第四位,早期筛查,对于降低宫颈癌发病率和死亡率,挽救患者的生命,具有重要意义。目前,宫颈癌的早期筛查主要依靠人工进行。病理医生需要在一张包含数千个宫颈细胞的涂片上通过肉眼观察,寻找癌变细胞。在大型医院中,病理医生每天要处理上百个类似的细胞涂片,存在较大的漏诊风险。针对该问题,本文提出了新的宫颈癌细胞识别方法,建立了包括75个特征的多参量
目的:探讨组织因子途径抑制物2(TFPI-2)对心房成纤维细胞和心房肌细胞功能的影响及相关分子机制。方法:采用ELISA法检测15例心房颤动(AF)患者和15名正常对照血清TFPI-2水平。分离、培养并鉴定SD乳鼠心房成纤维细胞和心房肌细胞。通过CCK-8实验检测0、50、100、200μg/L重组TFPI-2蛋白(rTFPI-2)处理24、48 h对心房成纤维细胞增殖能力的影响。采用Transw
行人再识别是计算机视觉领域的重要任务之一。通过给定一张特定行人的图片,行人再识别技术可以在图库或视频中查找到同一行人的其他图片,从而达到识别行人、检索行人的目的。随着监控摄像头的普及、智能城市的建立以及社会安全的需求,行人再识别技术获得越来越多的重视,因此行人再识别问题的研究有着重大意义。目前流行的有监督行人再识别技术已经取得了巨大的进展,在一些公开数据集上达到不错的性能。但是,这些方法却很难应用
个性化的头部解剖结构数字模型在面部外科手术、头部电磁学和生物力学仿真、人体艺术建模等诸多领域有着重要应用价值。在不方便使用断层扫描影像设备头部影像的情况下,使用面部照片引导个性化头部建模成为一个值得研究的替代解决方案。本研究以课题组开发的可变形中国人群数字解剖图谱为基础,实现三维图谱与二维正面照片的配准,得到对受试者头部及其内部解剖结构的个性化三维建模。本文的主要内容可以分为以下三个部分:(1)基
图像作为重要的信息载体,其质量的高低直接影响了信息表达的能力,因此图像超分辨率技术凭借其恢复高质量图像的强大能力在许多领域有着广泛应用。相较于传统二维图像,光场图像满足了人们对高维信息的需求。但是,主流光场相机捕获的光场图像始终存在空间分辨率和角度分辨率的权衡,面临着图像分辨率不足的问题。深度线索在光场超分辨重建中有着重要作用,但是现有工作大多关注如何利用深度线索,而忽略了对深度线索的深入挖掘与精
近几十年来,随着计算机和电子科学技术的飞速发展,涌现了许多先进的电子产品,例如智能手机,数码相机等。这些设备提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的组成部分。但是,当使用数码相机拍摄数字屏幕时,照片中会出现令人反感的摩尔纹。摩尔纹的存在严重损害了图像的质量,并且还会影响到后续的分析和处理。摩尔纹去除是图像恢复任务的一种,旨在最大程度的恢复被摩尔纹污染的屏摄照片。由于摩尔纹广泛
如今社会上出现各种各样先进的产品和技术,如高性能的智能手机、各种新颖的图像编辑APP和常用的社交APP等。这些APP的出现和流行让图像的拍摄、编辑和传播变得方便,也使网络上充斥着各种真真假假的数字图像。由此可见,高科技的发展作为一把双刃剑,在丰富便利生活的同时,也使数字图像的可信度逐渐降低,会有不法分子为实现自己目的而恶意篡改图像。为了进一步保证数字图像的可信度,研究者提出了被动数字图像取证技术,
骨关节炎(Osteoarthritis,OA)是最常见的退行性关节疾病,其特征是关节软骨的进行性退化和软骨下骨的重塑以及骨赘的形成,临床上引起关节疼痛、功能障碍,甚至残疾。关节软骨细胞外基质(Extracellular Matrix,ECM)分解代谢的增加是OA发生发展的关键因素。ECM的主要成分是蛋白聚糖、Ⅱ型胶原和非胶原蛋白,其在合成或降解过程中一些特定的碎片得以释放到体循环中。随着分子
在海上目标检测的过程中,基于人工智能的目标检测已经成为必不可少的重要实现工具。在宽阔的水域或者港口码头,无论密集的聚集还是松散的分布,都需要对船舶快速地检测和定位,进一步有分类以及分割的实际需求,对目标检测稳定高效性的要求也越来越高。本文的主要研究内容为改进YOLOv3目标检测算法的网络结构,以期提升网络的准确率和召回率。本文以水上船舶图像作为研究对象,进行深度学习神经网络模型研究、船舶图像增强研