论文部分内容阅读
随着司法领域信息化建设的广泛开展,法律文本作为司法领域的基础数据在司法智能化的过程中变得越发重要。如何高效地利用这些法律文本,对法律判决预测如罪名预测和法条推荐等任务有着十分重要的研究意义。现有的法律文本表示方法多是利用神经网络模型进行学习的,然而这些方法没有考虑过司法领域文本数据的一些独特性,也未考虑到知识图谱中蕴含的海量知识对于法律文本表示任务的帮助。从法律文本的角度来看,法律文本本身含有较多的专用词语,缺少对这些词语的解释。从知识图谱的角度来看,现有的法律知识图谱多以案件,涉案人员,审判人员和法院作为实体构建它们之间存在的关系,其中所蕴含的知识难以与法律文本表示相融合。出于法律文本的这些特点以及现有的法律知识图谱的不足,本文通过构建一个面向犯罪行为的法律知识图谱,并研究如何将知识图谱中的知识和法律文本的独特属性引入神经网络模型用以生成信息更加充分的法律文本向量表示。具体来说,本文的主要研究工作可以总结为如下几个方面:(1)针对文本中案情表示的需求,提出了面向犯罪行为的知识图谱构建方法。通过对法律文本中的案情分析,首先采用哈工大LTP工具对案情描述进行分词和词性标注等工作,接着通过依存句法分析算法分析处理过的文本中词与词之间的依存关系,然后根据语法规则的定义抽取得到相应的犯罪行为三元组的集合,最后将三元组形式的数据信息输入到Neo4j图数据库,利用Neo4j实现了面向犯罪行为的知识图谱的构建。(2)本文提出了一种融合外部犯罪行为特征的法律文本表示方法。通过对法律文本中的案情分析,解析案情中的犯罪特征关键词,并依据这些关键词去知识图谱中查询相关的实体,利用知识图谱嵌入的方法将这些实体转化为向量表示。对于犯罪特征词则是采用词嵌入的方法转化为向量表示。在模型结构上,将犯罪特征词的向量表示与相应知识实体的向量表示分别作为卷积神经网络的多通道输入,在卷积过程中分别从语义和知识两个层面进行学习。使得卷积神经网络能够捕获到更多的信息,进而可以得到更加完善的向量表示。(3)本文提出了一种融合犯罪行为序列的法律文本表示方法。在生成犯罪行为序列的表示部分,该模型通过引入知识图谱中的多条语义路径,来对案情描述的犯罪行为进行提取和拼接得到对应的犯罪行为序列,并使用双向长短记忆网络捕捉序列中前后的语义关系;在生成文本表示部分,对文本进行词向量表示,使用卷积神经网络提取文本的局部特征信息;最后将两个模型的表示结果结合起来得到当前文本的向量化表示。