论文部分内容阅读
分类问题是数据挖掘中的经典问题,层次多标签分类问题又要求样本最终判别的类别可能有多个,而且这些类别之间又有某种层次间的关系,这就需要我们使用不同于以往单分类的方法来进行分类,或是将层次多标签分类问题转化为多个较为简单的单分类问题。或是将单分类算法扩展成可以解决多分类问题,同时又要求多个标签之间满足层次上的约束关系。随着司法公开化改革的推进,包含了案件事实及其适用法律条文信息的裁判文书逐渐在互联网上公开,使得借助数据挖掘方法实现案件适用法律识别成为可能。利用数据挖掘方法实现案件适用法律识别的复杂性体现在两方面:一是可供挖掘的数据即裁判文书是以文本形式存在,一般的分类算法无法直接处理这样的非结构化数据;二是案件适用法律自动识别问题是一个层次多标签分类问题,法律条文的组织呈树形层次结构,同一案件可能适用多项法律条文,而且各项法律条文的具体程度也可能不同。因此,要构建实用而有效的案件适用法律识别系统,必须针对上述问题,探索相应的解决方案。本文提出了一种解决层次多标签分类的算法,并通过对裁判文书的挖掘,尝试构建案件适用法律识别系统,其中主要包括以下两方面工作:1.提出了一种基于降噪编码器的层次多标签分类算法dAE-HMC。作为一种局部的层次过标签学习方法,dAE-HMC算法在训练阶段考察标签空间的层次结构,对多标签训练样本的类别标签进行扩展,得到扩展多标签训练集,使得算法的预测结果能够满足层次限制。在预测阶段,待分类实例在类别层次的每一层通过降噪自动编码器编码,之后使用softmax分类器预测实例在该层次上的类别标签。上层的预测结果将作为下一层降噪自动编码器的输入。dAE-HMC算法的预测结果可以直接满足层次限制而无需额外的修正过程。。2.借助爬虫技术实现了裁判文书的收集,然后从裁判文书中提取出案件事实及其适用的法律条文,分别构成案件样本的特征和类别标签。利用文本挖掘技术,将案件事实文本进一步转化为结构化的文本特征向量,从而构建了包含大量案件事实及其适用法律条文的结构化样本数据集。在此基础上,应用dAE-HMC算法学习得到案件适用法律的预测模型,实现了案件适用法律的自动识别。实验结果表明,基于dAE-HMC层次多标签分类算法可以实现有效的案件适用法律自动识别;相比两种常见的层次多标签分类算法,dAE-HMC算法可以取得较好的预测性能。