论文部分内容阅读
近年来,最高法和各级法院陆续发布了大量已生效的裁判文书。对于广大法律研究者而言,裁判文书是宝贵的研究素材,具有很高的综合使用价值。由于裁判文书属于无结构的文本,如何对裁判文书进行结构化处理从中提取出需要重点关注的案件信息,并从历史案例库中查询到在案件要素、事件过程、争议焦点等语意层面相似的案例以辅助决策,是一个非常有价值和亟待解决的问题,该问题从技术层次上看属于面向法律领域的文本相似度计算问题。鉴于裁判文书案由众多而且相互具有很大的差异性,不同的案由通常涉及到不同的领域知识,建立一个能够适用各种案由或建立一个做到领域无关的通用模型都是不现实的,将无法准确地反映裁判文书的相似性。为此,根据实际需求和现有数据情况,本文专注于医患纠纷类裁判文书的相似性的研究,结合医患领域知识,建立医患纠纷类裁判文书的文本相似度模型和算法,并据此设计医患纠纷类裁判文书推荐系统,用以辅助司法工作者决策。在医患纠纷领域进行裁判文书相似性的研究,面临诸多问题。首先,领域知识在文本相似度计算中具有重要作用,如何把医疗领域的专业知识融入相似度计算的过程中,提高计算的精准度,是一个亟待解决的问题;其次,在从成千上万个文本中找出与指定文本相似的文本时,先判断文本的所属类别进行初步筛选,再在同类文本中寻找相似文本进行更精细的匹配是个目前广为应用的策略。为了保证文本分类的准确率,通常使用监督学习的方法。然而,在医患纠纷领域,既没有一个公开的标注数据集,医学专家手工标注的代价又很大,因此需要设计一个行之有效的分类标注策略。最后,医患纠纷裁判文书属于长文本,其中,原告诉称、被告辩称、审理查明、本院认为等段落在内容上存在大量冗余,使得文本的特征不突出,导致分类效果不佳,传统的基于文本整体构建向量空间模型和主题模型的相似度计算误差较大。因此,结合医患纠纷文本的特点,选择合适的文本表示方法,以除去冗余信息的影响,是一个需要深入研究的问题。为了解决上述问题,本文的研究从以下几个方面着手。首先,本文对大量的医患纠纷案例进行分析,并结合司法工作者的建议和意见,建立了一个实用的医患纠纷多维度分类标签体系。其次,本文沿用先分类,再在同类文本中计算相似度的方法。在案例分类时,考虑到医患纠纷领域没有公开的标注数据集,而人工标注案例的代价又很大,因此将主动学习运用在标注案例集的构造中,提出基于主动学习的医患纠纷案例的标签生成方法,以实现小样本条件下获取较高的标注准确率,减少对训练集大小的依赖。在同类案例中计算相似度时,考虑到医患纠纷案例的冗余性和特征不突出的特点,本文提出基于事件的医患纠纷案例相似度计算方法。该方法运用监督学习技术从医患纠纷案例中抽取出医患纠纷的起因、医疗过程以及造成的医疗损害后果等关键要素,组成医疗事件,通过计算医疗事件的相似度得到案例的相似度,从而有效地避免了冗余信息的影响,提高了相似度计算结果的准确性。最后,本文以案例分析的方法,分别使用基于事件的相似度算法、基于向量空间模型的相似度算法和基于主题模型的相似度算法进行案例相似度的计算和类案推荐。实验表明,基于事件的相似度算法的类案推荐结果具有最好的准确性,由此实现的类案推荐系统可以满足实际应用的需求。