面向司法数据质量的模型评估系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:jiu_yue9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国智慧法院的建设和司法透明化逐步落实,大量的裁判文书被公开,但由于全国各地司法系统的不同、案件文书类型的多样性、审判流程的复杂性以及人为的一些失误,导致裁判文书的格式和内容的质量良莠不齐。海量的司法裁判文书不仅提供了案件审判的关键信息,更是司法认知智能研究的数据基础。目前,司法研究领域已经积累了大量的模型算法,但实际落地使用的算法比例很小,主要是因为未能对其进行充分有效的评估。并且,模型的效果很大程度上取决于数据质量。由于需要大量的数据,即使训练数据中的相对较小的误差也会导致系统输出中的大规模误差。面向数据质量对模型进行评估,能够根据数据质量情况,选择更合适的模型,来提高模型训练的表现和未来做司法判决的准确性。本文对背景和现状、系统需求等方面进行了全面分析后,基于Django框架设计并实现了面向司法数据质量的模型评估系统,系统主要分为数据交互、文书解析、质量检测和模型评估模块。通过该系统,用户可以选择或上传待评估的模型,并选择或上传裁判文书数据集,进行司法智能分类预测任务,并计算模型评价指标。系统从准确度、区分度和稳定度角度出发,采用的模型评价指标为Accuracy,F1-score,KS值和PSI。对于上传完成的裁判文书,系统将自动对其进行字段解析、标签分类和特征提取,生成质量检测报告,质量属性包括可解释性、相关性、准确性和一致性。用户可以选择配置随机打乱、随机删除和随机插入等文本变异方法,在保持原数据集规模的情况下,生成多组新的案情描述文本,对其质量属性进行重新度量,并对新文本重新进行文本解析和计算执行司法分类任务模型的评价指标。系统能够根据数据集情况生成具体司法分类任务情况下质量属性值与模型评估指标之间的可解释的相关性可视化图表。系统从可解释性角度出发,以机器学习模型KNN,SVM和Naive Bayes为评估对象进行测试,以来自中国裁判文书网的2万交通类民事一审裁判文书为数据集进行了引用法条预测和判决金额预测的实验,实验结果表明在该数据集情况下,Naive Bayes模型对数据的准确性较为敏感,SVM模型对可解释性较为敏感,而KNN模型对裁判文书的质量属性不敏感。因此,当司法裁判文书质量不能保证时,采用KNN模型进行判决金额和引用法条预测较好;当裁判文书可解释性较高时,建议采用SVM模型;而Naive Bayes尽管对准确性敏感,但分类结果不佳。本文提出的面向司法数据质量的模型评估系统具有上传、管理、配置等功能,便于用户使用,能够有效地评估司法裁判文书数据集的质量,更全面地评估执行司法分类任务的模型,对不同裁判文书质量条件下的模型选择给出合理建议,有利于提高司法裁判预测任务的准确性。
其他文献
荧光传感技术具有简便、快捷、响应时间短、可实时原位检测和可视检测等优点。配位聚合物作为新型的荧光传感材料备受研究者们的关注,已被广泛用于阴阳离子和有机小分子的监
我国自2009年开始正式推进人民币国际化,在政府的一系列的政策管理和宏观调控下,人民币的国际化程度得到大幅度提高,2016年人民币加入国际货币基金组织的特别提款权(SDR)货币篮子,标志着人民币国际化又迈上了一个新的台阶。目前人民币已经成为全球第三大贸易融资货币、第五大支付货币、第五大外汇交易货币人民币国际化是我国当前的一项重要国家战略,人民币的国际化进程必然关系到中国的国家利益,政府对人民币国际
移动通信系统的信号传输过程中,由于信道衰落、多径传输、时延扩展等因素的影响,使得信道传输特性具有不确定性,在接收端会产生符号间干扰、码间串扰等问题,再加上不可避免的
江苏省高等教育大众化呈现出不断深化的良好态势,导致新建本科院校数量不断增加,从这些院校发展的实际情况来看,正在不断的发展壮大,逐渐成为了推动江苏省高等教育发展的生力军。而在如今知识更新速度以及信息技术变革的新时代,图书馆以自身资源服务于用户的优势却越来越不明显,新建本科院校图书馆的价值不能仅从其自身的馆藏数量来进行简单的衡量,而应是以其为读者提供他们需要的信息的能力来进行衡量,因此,这就使得江苏省
随着纳米科技的快速发展,纳米器件和纳机电系统逐步应用到科技和生活的各个领域。杆状纳米结构作为纳米器件和纳机电系统中不可或缺的元件,系统化研究其力学行为尤其是动力学特性则非常必要。本文首先基于Eringen非局部理论和Kelvin-Voigt粘弹性理论,建立了粘弹性纳米杆模型,求解了纳米杆的轴向振动问题和纵波传播问题。其次,基于非局部应变梯度理论,分别采用经典Love杆理论和Rayleigh-Bis
近年来,活性/可控自由基聚合的发展已经能达到对所合成含糖聚合物的链段结构及糖分子的空间分布的控制,越来越多组成结构各异的复合含糖聚合物得以被制备出来,相关生命科学领域也因此有了许多新的应用进展。含糖聚合物通过加入不同性质的单体进行共聚所得到的复合含糖聚合物因聚合链的组分及拓扑结构的差异可为其带来许多性质上的差异性。通过活性/可控自由基聚合得到的组成不同,结构各异的复合含糖聚合物在同细菌及细胞作用时
传统金融学以有效市场和完全理性人为假设前提,认为价格包含一切信息,人们总能根据市场信息做出理性决策,实现利益最大化。股票市场的出现和发展,极大地促进了社会的发展,但也产生很多难以被传统金融学解释的金融异象。行为金融学顺势形成,认为人是有限理性,且价格并不包含市场所有信息,即市场不总是有效的。我国股票市场作为一个新兴市场,发展迅速,市场规模不断扩大,但也表现出过度交易、追涨杀跌和波动较为频繁等特点,
在能源结构问题日益突出的今天,光伏产业越发受到重视,但是太阳能电池板积灰严重制约光伏产业发展,迫切需要解决积灰问题。机械除尘通过机械结构施加机械力来去除电池板表面的积灰,目前对机械除尘研究主要通过分析清洁前后的发电效率来判断清洁效果,没有分析清洁过程中清洁力的大小。本文在宏观力理论分析的基础上,假设积灰颗粒为刚性小球,尼龙6刷丝为柔性梁,分析推导出柔性梁与颗粒的相互作用模型。依据Elastica理
考虑到数据中心功率可控特性的特点,可以将其作为负载集成到配有可再生能源发电的智能电网中,从而在一定程度上消纳可再生能源。本文考虑了数据中心和光伏发电厂的接入对电网可能产生的影响,对数据中心建设的位置和容量规划问题开展了研究。针对所构建的优化问题,在电压和支路功率约束的条件下,基于遗传算法对光伏电厂和数据中心接入位置和容量的规划问题进行了最优方案求解。实验结果表明,本文提出的仿真模型能够找到数据中心
随着需求响应理论研究的不断深入和应用潜力的不断挖掘,需求响应的可靠性受到了越来越多的关注。本文深入分析了影响需求响应可靠性的因素,并建立了需求响应可靠性模型评估需