面向司法领域的文本标注工具设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:xjfox1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在司法领域中,信息往往是以文本这种非结构化的形式存在,并且已经形成了相当大的规模,为了对这些信息进行更深入地分析、研判,实际中需要对这些信息进行结构化处理,进行关键信息的标注。目前,对于司法领域文本的标注任务,利用现有的通用文本标注工具进行手工标注,并不能满足标注需求。首先,法律领域文本不仅数据量大,且其中最具参考价值的裁判文书属于典型的长文本,存在大量冗余词语、句子甚至段落,并且司法领域文本在语言表达上存在专业性强、表述丰富的特征,利用现有标注工具进行人工标注,存在繁琐、低效和高成本的问题。其次,司法领域文本涉及的主题比较多,不同类别的司法文书需要提取的信息不同,标注人员的擅长领域也不尽相同,而现有标注工具缺少标注任务管理模块,无法进行标注任务的合理发布、分配,因而很难进行语料庞大、种类繁多的法律领域文本的标注任务。针对上述问题,本文实现了一个专门针对司法领域文本进行设计并优化的标注工具。本文完成的工作具体包括以下内容:1.制定规范的司法领域文本标注作业流程。本论文研究了司法领域文本标注流程,有效地制定了标注规范。实现在文本标注实践中,有效地管理标注任务的进程与质量。2.设计良好的人机互助的标注模式。本文设计实现了针对司法领域文本的自动标注方法,作为对人工标注的辅助;并利用人工标注结果,完成对自动标注识别性能的提升。3.设计实现面向司法领域文本标注工具。本文利用B/S架构设计并实现面向司法领域的文本标注工具,无需用户下载安装特定的客户端。通过该工具的用户友好型前端页面以及智能的后端系统,方便用户完成司法领域文本标注任务的制定、执行与管理。标注工具经过测试和试运行表明,通过规范的标注作业流程管理,使得司法领域文本标注任务的进度与质量得到了保障。工具借助自动标注辅助模块,有效提升了人工标注的效率。利用主动学习算法以及迭代式规则生成模式,加速提升了自动标注辅助模块的辅助效果。在标注工具的使用过程中,工具运行稳定,简单易用,基本达到预期需求。
其他文献
近年来Twitter、Facebook、新浪微博等社交应用的用户及内容信息量激增,其中包括难以辨别真假且需要被抑制的信息,本研究将其称为特定信息。现有社交网络信息抑制相关工作主要通过辨别信息本身的真实性来切断传播源头,或者通过将网络中的某些传播者去除来切断传播路径,而鲜有通过传播过程进行信息抑制的研究。针对现有社交网络信息抑制研究的不足,本文将从真实的微博社交网络出发,利用用户属性及文本数据,对用
婴儿自发表情是指婴儿自然发生的面部表情,能够传递意图与情绪信息,受到心理学、教育学和临床医学的广泛关注。婴儿表情识别技术在智能家居、医疗保健、早期教育等方面具备广阔的应用前景。随着人工智能的崛起和迅猛发展,以成人为研究主体的表情识别取得了显著成果,而很少有研究关注婴儿表情。婴儿自发表情识别研究存在如下挑战:婴儿面部皮肤光滑、褶皱纹理浅、毛发颜色淡和表情表现力弱的特点使得表情特征不易辨识;婴儿自发表
背景经椎间孔腰椎椎体间融合术(TLIF)作为改良的后路腰椎椎体间融合术(PLIF),不仅具备PLIF的所有优点,同时避免了PLIF的危险性和局限性,目前已经成为各种腰椎退行性疾病(LDD)的主要术式。但是,TLIF同样也面临一些问题,术后发热是此类手术后常见现象,术后发热不仅增加患者和家属的心理负担、延长住院周期、增加住院费用,而且对患者的围手术期管理造成众多不便。目前,关于TLIF后发热危险因素
针对现有除湿技术普遍存在的低效率和高能耗缺陷,结合空气中水分子具有的电负性及外场技术近些年来在传热传质领域中的应用,提出了一种基于电渗析的空气直接除湿方法。本文结合电渗析技术和膜分离技术,进行电渗析空气直接除湿过程的探讨。鉴于目前外加电场在除湿领域还未得到广泛的应用,本文采用分子动力学方法针对此过程进行相应的机理研究。主要研究内容如下:首先,为了研究电场作用下水分子在分离膜中的扩散特性,简化膜及气
为获得高塑性高电导率低氧铜丝,本文采用微合金化法制备稀土处理低氧铜,并利用扫描电子显微镜(SEM)、透射电子显微镜(TEM)、背散射电子衍射技术(EBSD)、力学性能、导电性能检测等手段,研究了拉拔形变量、退火温度及稀土 La添加量对低氧铜显微组织、力学性能和导电性能的影响。研究了不同拉拔应变量下低氧铜的显微组织和性能。结果表明:随着拉拔应变量的增加,低氧铜的强硬度均呈现先上升后轻微降低的趋势,抗
目的:本研究旨在探讨术前血清胆固醇水平,包括血清总胆固醇(total cholesterol,TC),低密度脂蛋白胆固醇(low density lipoprotein,cholesterol,LDL-C),高密度脂蛋白胆固醇(High density lipoprotein,cholesterol,HDL-C)对Luminal型乳腺癌患者发生内分泌治疗耐药的影响,并进一步分析高胆固醇血症与内分泌
航空重力测量是获取地球重力场的测量手段之一,由于重力测量精度高和速度快,得到广泛应用。本文针对三轴平台航空重力仪测量数据进行后处理软件设计和研制,论文的主要研究内容与成果如下:针对航空重力数据的预处理阶段,加强了对原始数据质量控制,对重力测量系统和GPS导航系统获取的垂直加速度信号的分析,采用相关系数法计算出某架次重力仪信号的延迟量为0.27s,修正后实现GPS与重力仪数据时间同步。基于游移方位惯
建筑外围护结构将室内环境与室外环境分隔开来,其热工性能对室内环境与建筑能耗均有直接而重要的影响,因此围护结构节能技术一直是建筑节能领域的研究重点。建筑围护结构节能通常从以下两方面入手,一是减小外墙传热系数,减少因传热导致的能量损失;二是提高围护结构气密性,包括外窗气密性以及墙体气密性,减少因空气渗透导致的能量损失。本文以夏热冬冷地区为例,选取四栋建筑进行建筑外围护结构热工性能实测分析,并通过软件模
现代社会中,室内场景的位置感知服务已经成为人们日常生活和工作中不可或缺的一部分。基于信号强度(Received Signal Strength,RSS)的可见光室内定位技术由于其成本低、精度高、安全性高和能耗低等优点,关注度越来越高。现有基于RSS的可见光室内定位系统,未考虑到光源布局和定位算法的光源选取方式对定位误差的影响。针对该问题,本文采用基于克拉美罗下界(Cramér–Rao lower
目的:盆腔肌筋膜疼痛(MFPP)属慢性盆腔疼痛的一种,是危害女性健康的常见疾病。因其临床表现无明显特异性,医患认知率较低。目前国内外针对MFPP的治疗方法较为传统,主要为盆底健康教育、Kegel锻炼、物理按摩、生物反馈治疗、局部注射药物、口服止痛药等。为探索最优化的治疗方案,本文通过研究治疗后患者主观盆底肌肉疼痛评分(NRS)、医生触诊患者盆底肌肉疼痛评分(NRS)、PGI-I量表、盆底表面肌电G