论文部分内容阅读
伴随着新时代国家法治事业进程的持续推进,依托于日新月异的互联网技术,大量法制领域真实案件的新闻报道被呈现在互联网上,其中案件中实体及实体间关系信息可以组织起来构成案件的实体关系网络,有助于人们快速浏览新闻和梳理案件详情,但这些有价值的信息总是被无关信息所淹没,所以抽取新闻报道中案件实体间关系是值得研究的课题,其中抽取和整合这些信息就涉及到信息抽取技术。考虑到法制领域案件的实体关系抽取任务中高质量标注语料库稀缺、不含噪声的标注数据集的大小有限、人工特征工程研究尚未完全成熟的现状,针对远程监督方法的噪声标签问题,提出了基于强化学习的数据集噪声过滤模型,然后在噪声过滤后的标注语料上,结合法制领域案件新闻报道的特点,提出基于卷积神经网络的关系分类模型,最后提出基于图形数据库的实体关系网络可视化等方法,主要完成以下工作:(1)基于强化学习的数据集噪声过滤模型。针对现有的法制领域案件的标注语料库比较稀缺的问题,本文提出了一种基于强化学习的数据集噪声过滤模型,首先准备一个法制领域案件新闻的语料集,借助知识库使用远程监督方法自动获取标注数据集,在这个含有噪声的标注数据集上,使用强化学习技术过滤掉句子标记不正确的句子,筛选出句子标记正确的句子构成较高精度的标注数据集。(2)基于卷积神经网络的关系分类模型。因为传统有监督学习的实体关系抽取方法需要依赖自然语言处理工具提供关系分类特征,容易形成错误叠加和累积效应。针对这个问题,提出使用卷积神经网络模型自动抽取关系分类特征,在已经优化的标注数据集上进行实体关系抽取模型的学习和训练,此外,噪声过滤模型和关系分类模型两个模型需要共同训练才能提升实体关系抽取的性能。(3)基于图形数据库的实体关系网络存储和可视化显示。法制领域的实体关系网络是一个包含实体及实体间语义关系的复杂关系网络,传统意义上将这些信息保存在普通数据库中已经不能满足现在的应用需求,本文提出一种基于Neo4j图形数据库的实体关系网络的存储和可视化方法,将从法制领域案件中抽取出的实体关系三元组集合用图形数据库存储和可视化展示。