基于文本挖掘的领域知识图谱构建方法的研究与实现

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:lightning111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱作为一种描述自然界中的实体及其相互联系的语义网络,已经被广泛应用于各行各业。一个完善的领域知识图谱可以辅助计算机理解相关知识,进一步帮助提升从业者的工作效率和质量。知识图谱构建的核心技术是实体关系抽取,目前中文实体关系抽取的准确率通常只有60%~70%,而领域知识图谱构建仍需进一步面临缺乏训练语料,对人工依赖较大以及构建方法难以跨领域移植等问题。针对上述问题,结合目前法律领域数据资源庞大繁杂,亟需有效组织利用的现状,本文研究提出一种基于文本挖掘的法律领域知识图谱构建方法并予以实现。具体工作如下:(1)针对缺乏领域训练语料的现状,提出基于远程监督的训练语料构建方法。采集百度百科上法律相关概念词条下的结构化信息作为初始三元组,利用远程监督的方法回标百科文本,自动化获取训练语料。进一步提出三元组扩充算法与关系特征词过滤语料的方法解决自动获取语料常见的数量较少及噪声问题。(2)针对不同类型的实体关系抽取任务,提出两种抽取方法。第一种是基于最大熵模型的实体关系抽取方法,该方法基于关系分类思想,通过n-pattern特征提取方法表征各类关系文本的差异,从而完成限定类型的关系抽取任务;第二种是融合CRF与句法分析树的实体关系抽取方法,该方法依赖序列标注和句法分析思想,可以完成任意类型的关系抽取任务。实验表明本文提出的两种方法抽取结果准确率均能达到72%以上,与现有的实体关系抽取方法相比具有明显的优化效果。(3)以前述环节获取到的法律知识三元组为数据源,提出一种基于NeO4j图形数据库的RDF文件存储方案对三元组进行存储,进一步研究法律知识图谱构建与应用系统的模块化分工安排,并通过系统应用模块的可视化平台实现法律领域知识图谱的查询与展示功能。
其他文献
刚果(金)的铜矿带以赋存于新元古代沉积岩中的铜-钴多金属矿床为特征。根据矿体赋存地层的不同,矿带内自下向上共发育6层矿体。最主要的两个层状铜-钴矿体主要赋存于下Roan群
随着石油产业和航运业迅猛发展,船舶溢油事故时有发生,船舶造成的油污损害严重地威胁了海洋环境,随着全球环境保护意识的增强,船舶溢油损害问题已从局部的、区域性的法律问题发展
目的探讨血浆D-二聚体在非小细胞肺癌(NSCLC)患者中的临床价值。方法采用免疫比浊法检测47例NSCLC患者及66名健康人的血浆D-二聚体水平,对D-二聚体与NSCLC临床分期、病理分型
迫于我国经济发展方式转型和经济全球化的形势压力,伴随着我国加入WTO后金融机构资本约束的提高和同业竞争的加剧,我国的商业银行亟需通过多种方式发展中间业务,以应对日益激
随着我国互联网的高速发展,互联网广告已逐步超过电视、报纸等传统媒体广告,成为中国广告行业的不可或缺的重要力量,尤其是近几年随着新媒体应用的逐步拓展,新媒体广告更是表
<正> 矿床位于柞水—礼县海西冒地槽凤(县)太(白)矿田南部之铅洞山—水泊沟背斜西部倾伏端。矿床地质概况区内出露的地层为中泥盆世浅
目的探讨疼痛管理对骨科患者术后疼痛及睡眠状况的影响。方法将本科收治的并需要手术治疗的80例骨折患者随机分为疼痛管理组(实验组)和传统对照组(对照组),各40例。实验组患
带状疱疹后遗神经痛是急性带状疱疹后的并发症,是临床治疗较棘手疾病之一。本文选用近年来有代表性的医学文章,从中医辨证治疗、针灸、外治以及综合疗法4个方面,对带状疱疹后
数学史的定义是研究数学概念、数学方法和数学思想的起源与发展,及其与社会政治、经济及一般文化的联系的一门科学,是学习数学、认识数学的工具。我们通过数学史的学习与研究,可
目的:观察原发性高血压患者血清Ⅰ型前胶原羧基端肽(typeⅠprocolla-gencarboxyterminalpropeptide,PⅠCP)、Ⅲ型前胶原N端肽(typeⅢpro-collagenaminoterminalpropeptide,P