基于自动编码器的层次多标签分类

来源 :南京大学 | 被引量 : 0次 | 上传用户:qijisama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘中的经典问题,层次多标签分类问题又要求样本最终判别的类别可能有多个,而且这些类别之间又有某种层次间的关系,这就需要我们使用不同于以往单分类的方法来进行分类,或是将层次多标签分类问题转化为多个较为简单的单分类问题。或是将单分类算法扩展成可以解决多分类问题,同时又要求多个标签之间满足层次上的约束关系。随着司法公开化改革的推进,包含了案件事实及其适用法律条文信息的裁判文书逐渐在互联网上公开,使得借助数据挖掘方法实现案件适用法律识别成为可能。利用数据挖掘方法实现案件适用法律识别的复杂性体现在两方面:一是可供挖掘的数据即裁判文书是以文本形式存在,一般的分类算法无法直接处理这样的非结构化数据;二是案件适用法律自动识别问题是一个层次多标签分类问题,法律条文的组织呈树形层次结构,同一案件可能适用多项法律条文,而且各项法律条文的具体程度也可能不同。因此,要构建实用而有效的案件适用法律识别系统,必须针对上述问题,探索相应的解决方案。本文提出了一种解决层次多标签分类的算法,并通过对裁判文书的挖掘,尝试构建案件适用法律识别系统,其中主要包括以下两方面工作:1.提出了一种基于降噪编码器的层次多标签分类算法dAE-HMC。作为一种局部的层次过标签学习方法,dAE-HMC算法在训练阶段考察标签空间的层次结构,对多标签训练样本的类别标签进行扩展,得到扩展多标签训练集,使得算法的预测结果能够满足层次限制。在预测阶段,待分类实例在类别层次的每一层通过降噪自动编码器编码,之后使用softmax分类器预测实例在该层次上的类别标签。上层的预测结果将作为下一层降噪自动编码器的输入。dAE-HMC算法的预测结果可以直接满足层次限制而无需额外的修正过程。。2.借助爬虫技术实现了裁判文书的收集,然后从裁判文书中提取出案件事实及其适用的法律条文,分别构成案件样本的特征和类别标签。利用文本挖掘技术,将案件事实文本进一步转化为结构化的文本特征向量,从而构建了包含大量案件事实及其适用法律条文的结构化样本数据集。在此基础上,应用dAE-HMC算法学习得到案件适用法律的预测模型,实现了案件适用法律的自动识别。实验结果表明,基于dAE-HMC层次多标签分类算法可以实现有效的案件适用法律自动识别;相比两种常见的层次多标签分类算法,dAE-HMC算法可以取得较好的预测性能。
其他文献
与零带隙的石墨烯不同,过渡族金属硫属化物由于其独特的性质,比如光学透明、高载流子迁移率和广泛可调的带隙等,引起了材料学领域的广泛关注。目前,二维纯相层状P型半导体很
党的十九大报告中明确提出建设国家创新体系,鼓励创新发展,为响应“大众创业,万众创新”的号召,众多企业积极进行创新研发来提高核心竞争力,不断推出适销对路的产品,不断开拓
三维编织复合材料由于整体性较好和设计性较强等特点,在结构上可以避免易分层,损伤容限较低等缺点。因其在厚度方向上存在连续的纤维束,具有抵抗分层,剪切强度高和断裂韧性好
图书馆作为学习资源与新闻资讯的重要集散地,已经成为了信息传播的关键枢纽,在社会发展的进程中也正扮演着越来越重要的角色。从条码技术到如今的RFID技术,图书馆的运作方式
反应型荧光探针通过共价键的断裂或生成与特定的分子发生不可逆的化学反应来实现对目标分析物的特异性识别,具有灵敏度高、选择性好等优点。其中,基于反应型的聚集诱导发光(AI
自古以来时间都与人类的生产、生活密切相关,汉语作为一门古老的语言,产生了大量有关时间的表述。随着汉语研究的深入与发展,汉语时间范畴的研究受到越来越多语言研究者的重
吸波材料作为电磁污染和干扰问题的有效解决手段,有着广阔的使用前景。纤维复合吸波材料是拥有良好机械性能和耐高温的高性能复合结构材料,应用潜力大。铁硅系合金微粉有较高
随着实时观测技术的发展,社会各行业已经积累了海量的信息数据。从事物发展过程中测量到的海量数据中挖掘出能够揭示事物发展一般规律的有用信息,据此预测事物的发展趋势,不
融资租赁出现于20世纪50年代。作为一种具有融资与融物双重属性的金融方式,融资租赁因其筹资速度快、限制条款少、设备淘汰风险小等优点,在很短的时间内成为了覆盖全球的融资
小学数学教材随着课程标准的颁布与更新而不断修订与完善。为了探究我国的小学数学教材与新加坡的小学数学教材有何差异,本研究以我国的苏教版教材和新加坡的MC版教材为主要研究对象,采用文献法、比较法、文本分析法以及案例法对两版教材的组织结构、课程难度以及两版教材与各自课程标准的一致性水平这三个方面进行比较分析。其中教材组织结构的对比包括内容、栏目、插图和教师配套用书对比;教材难度对比使用了史宁中的难度模型