论文部分内容阅读
随着中国指导案例制度的建设和法律裁判文书的获得途径越来越多,对于待判案件参考援引案例的方法在诉讼途径中受到广泛的使用。但是,目前现有的裁判文书检索系统中只能从裁判文书的浅层字面进行查找,在很大程度上忽略了案件语义上的关联性,未充分利用现有的法律裁判文书资源,同时,在现有的法律裁判文书的分类里,缺少在语义级的分类方式。针对当前法律裁判文书在语义挖掘上的欠缺,提出了NLP(Nature Language Processing)+法律的概念。首先,在大规模法律裁判文书语料的基础上,使用分布式集群框架Mapreduce和Hive数据仓库作为支撑,使用了基于负采样的skip-gram算法进行建模得到表征语义的词向量,然后提出随机漫步算法和平滑逆频率SIF建模得到表征文本上下文关系的句向量,最终实现将法律裁判文书表示成分布式高维向量,使用向量之间的余弦距离来衡量法律裁判文书之间的相似性,从而选取高相似性的案件作为待判案件语义级的援引案例。实验表明,基于句向量的相似案例查询具有较高的语义匹配程度。其次,通过构建法律裁判文书向量库,使用基于句向量的k-means算法和birch算法进行聚类,经过使用轮廓系数作为评价指标对比两种算法的聚类效果。实验表明,birch算法聚类效果更好,且其将现有的30万篇劳动争议的法律裁判文书划分为6个类簇,然后再在每个类簇里基于词向量提取关键词列表,将该关键词列表作为对应类簇的标签,从而构建法律裁判文书语义级分类画像。本文的创新点概括如下:一、不同于传统的词向量的加权平均和复杂的神经网络方法,采用了随机漫步算法和平滑逆频率SIF的方法构建句向量,优化了传统方法上忽略了语义的问题,也避免了神经网络方法构建上的复杂性和训练的耗时性;二、在提取簇类的关键词作为标签之前,使用了基于句向量的聚类。在聚类的基础上再次使用基于词向量的关键词提取方法,两次深度挖掘了文本语义上关联性;三、作为将NLP自然语言处理深度学习大胆尝试在法律领域,提出了NLP+法律的应用场景,在文本相似性的计算过程中贴合法律的实际应用场景进行了不同权重的分配,提出了侧重于各法律裁判文书要素的语义相似性查询,提升了NLP在法律领域提供援引案例的实用性,并构建了一套全新的法律裁判文书语义级分类画像,为充分利用丰富的法律裁判文书资源提供了新的思路。总的来说,使用神经网络的方式进行法律裁判文书的词向量建模,以及使用随机漫步模型和SIF构建句向量,能够更好的提取文本的语义信息,能够提升后期文本相似度查询和聚类分析的效果,促使自然语言处理在法律领域的应用更进一步。