法制领域案件的实体关系抽取研究

来源 :昆明理工大学 | 被引量 : 3次 | 上传用户:yyeeq507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着新时代国家法治事业进程的持续推进,依托于日新月异的互联网技术,大量法制领域真实案件的新闻报道被呈现在互联网上,其中案件中实体及实体间关系信息可以组织起来构成案件的实体关系网络,有助于人们快速浏览新闻和梳理案件详情,但这些有价值的信息总是被无关信息所淹没,所以抽取新闻报道中案件实体间关系是值得研究的课题,其中抽取和整合这些信息就涉及到信息抽取技术。考虑到法制领域案件的实体关系抽取任务中高质量标注语料库稀缺、不含噪声的标注数据集的大小有限、人工特征工程研究尚未完全成熟的现状,针对远程监督方法的噪声标签问题,提出了基于强化学习的数据集噪声过滤模型,然后在噪声过滤后的标注语料上,结合法制领域案件新闻报道的特点,提出基于卷积神经网络的关系分类模型,最后提出基于图形数据库的实体关系网络可视化等方法,主要完成以下工作:(1)基于强化学习的数据集噪声过滤模型。针对现有的法制领域案件的标注语料库比较稀缺的问题,本文提出了一种基于强化学习的数据集噪声过滤模型,首先准备一个法制领域案件新闻的语料集,借助知识库使用远程监督方法自动获取标注数据集,在这个含有噪声的标注数据集上,使用强化学习技术过滤掉句子标记不正确的句子,筛选出句子标记正确的句子构成较高精度的标注数据集。(2)基于卷积神经网络的关系分类模型。因为传统有监督学习的实体关系抽取方法需要依赖自然语言处理工具提供关系分类特征,容易形成错误叠加和累积效应。针对这个问题,提出使用卷积神经网络模型自动抽取关系分类特征,在已经优化的标注数据集上进行实体关系抽取模型的学习和训练,此外,噪声过滤模型和关系分类模型两个模型需要共同训练才能提升实体关系抽取的性能。(3)基于图形数据库的实体关系网络存储和可视化显示。法制领域的实体关系网络是一个包含实体及实体间语义关系的复杂关系网络,传统意义上将这些信息保存在普通数据库中已经不能满足现在的应用需求,本文提出一种基于Neo4j图形数据库的实体关系网络的存储和可视化方法,将从法制领域案件中抽取出的实体关系三元组集合用图形数据库存储和可视化展示。
其他文献
国际贸易中因卖方提交的单据不符合信用证的规定遭银行退单是常有的事,然而一般此时船舶抵达卸货港已有时日,若承运人无单放货,卖方向承运人提起无单放货之诉,其诉讼时效究竟
中国的宗教发展由来已久,佛教在中国已有两千年历史,道教也有一千七百多年的历史。久远的时间留下的是厚厚的文化积淀,这种内涵除了在宗教的教义中体现以外,还深深的反映到了
<正>1.周边1.1区域项目用地位于玉渊潭公园北岸,介于海淀区西二环、三环之间。项目南距玉渊潭公园水域仅80m,西邻亚洲最大樱花园,北接阜成路,东邻钓鱼台,交通便捷。1.2景观玉
师生一体的党建模式,把专业课教师党员和学生党员结合在一起成立党支部,在党的基层组织层面上实现教师和学生的结合,较好地发挥教师党员在培养、发展、教育和管理学生党员工作中
1840年鸦片战争以后,中国开始了近代化的进程,中国建筑进入了近代发展时期,与沿海开埠城市不同,西安的近代化进程是主动引进西方文化而非被动输入,因此相对缓慢,是中国内陆城
在知识经济时代,大学的发展推动着社会经济的前进。社会对人才的需求要求不断提高,同时人才培养目标也在不断更新,与之配套的校园景观环境也随之改变。在某种意义上,校园的景
从老年人的生理特点、心理需求、行为特征、文化认同感等四个方面提出了针对当前老龄化社会背景下的宜老社区景观环境建设的思考。通过对老年人生理和心理特点的分析,提出了
目的:研究大黄中主要有效成分大黄酸(Rhein)对细菌脂多糖(LPS)诱导的小鼠巨噬细胞系RAW264.7细胞一氧化氮(NO)生成及相关炎症细胞因子IL-1β、IL-6和TNF-α的影响,并探讨其可
知识经济时代,以经济的知识化和社会的信息化为特征,高等教育更趋向于多元化、社会化、国际化,更重视人本化的教育,力求实现人的全面发展及个性的全面解放。校园作为高等教育
本文通过对陕南山区村庄发展现状和已编制各类村庄规划的全面分析,深入探究了陕南山区村庄规划存在问题及产生机理,在此基础之上,借鉴国内外相关理论和实践,对村庄规划体系进