论文部分内容阅读
全面依法治国是一项非常大的系统工程,它所涉及的方面十分广泛,十九大报告中提出:为了加强对法治中国的统一领导成立中央全面依法治国小组。从战略层面来看,法律大数据是一项有效的战术,它对于中国成功实现法治政府、法治国家、法治社会有重大作用。从2015年开始,国家便制定了大数据战略,大数据在中国的社会发展中显得越来越重要,其基础性战略资源的地位和作用也越发凸显出来。大数据对于国家各个方面的发展都产生了重要的影响。随着裁判文书开始在网上公布,法律方面的数据日益增加,与此同时,随着计算机计算能力的不断提升,数据挖掘、机器学习、深度学习等技术的不断发展,法律大数据时代必将到来。随着裁判文书开始在网上公布,法律方面的数据不再仅仅来源于政府和司法机关。现在可以在网上获得大量法律方面的数据,这为法律大数据的发展打下了坚实的数据基础。网络上面有了越来越多的判决书文本数据,这么多的数据其实是一个巨大的宝藏,为了充分挖掘法律判决书里面的价值,本文对裁判文书进行了深度挖掘,这将对法院将来的判刑提供一些参考意见,也为国家的法治建设提供了一定的理论基础。本文首先针对中国裁判文书网设计了一套爬取裁判文书的爬虫程序,爬取了2018年河北省刑事案件里面案由是侵犯公民人身权利、民主权利的故意伤害罪案件,并针对中国裁判文书网的反爬措施提出了相应的解决办法。然后运用正则表达式对裁判文书进行符合一定正则规则的信息提取。其次,对被告人的基本信息、犯罪事实等信息作图,从而实现对被告人进行描述性分析。运用随机森林模型的方法对裁判文书中的判刑进行了预测,分别对主刑、缓刑进行了分类预测,对判刑的时间长度进行了回归预测,并对预测结果进行详细的解读。最后,本文先用正则表达式对裁判书的不同部分进行提取,再利用RNN循环神经网络和LSTM长短期记忆神经网络,对每一部分进行训练,生成每部分的判决书文本。本文通过对裁判书的深度挖掘,得到以下结论:(1)运用随机森林模型对主刑进行预测时,其预测的平均准确度为85.86%,并发现死亡人数对判刑结果的影响最大,是否有人死亡的影响力度排第二,重伤情况对于被告人最后的判决影响也很大。(2)运用随机森林模型对缓刑进行预测时,其预测的平均准确度为69.42%,并发现判刑的总月数量、被告者学历、轻伤人数、是否累犯对最后是否判决缓刑有着显著的影响。(3)运用随机森林模型对判刑年限进行回归预测时,其拟合优度最大为42.3%。这个数值对于实际问题的预测来说,其拟合优度的数值已经很好。并发现案件中是否存在死亡现象这个变量在最后法院对被告者进行判刑年限的时候影响最大。(4)运用Python软件和TensorFlow深度学习框架来进行建模,把爬取下来的河北省2018年的故意伤害罪的裁判文书先进行分块,对模型进行训练,最后生成了被告人基本信息的文本内容,生成的判决书仅供法院进行参考。本文设计的一整套对裁判文书的分析挖掘方案,将对法院最后的案件判决起到一定的辅助判决作用。