面向中文百科知识图谱的实体细粒度分类技术的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:haizhiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体分类任务是构建知识图谱的必要步骤。到目前为止,在实体分类方向已经有了大量的研究工作,但是这些方法通常只能获取实体的粗粒度概念信息,这对于知识图谱的构建还有基于知识图谱的应用来说是远远不够的。由于中英文的差异性,这种情况在中文实体分类任务中表现的更差。在本文中,我们提出了一个面向中文百科知识图谱的实体细粒度分类算法。我们以百科词条为实体,构建了一个知识抽取框架,并从中抽取实体信息,然后通过数据清洗工作来获取高质量的结构化数据,最终将数据以三元组的形式存储到知识图谱中。为了获取高质量的实体细粒度概念,我们不仅从实体的标题标签和信息框中挖掘出实体的高质量、细粒度概念信息,而且将从摘要中抽取的概念信息和人工标签作为含有噪声的候选细粒度概念集合。本文首先从标题标签和信息框中获得可靠的实体概念信息;然后将实体、属性、属性值和概念组织到一个信息图中,并从图中获取每个候选(实体-概念)对之间的一些路径信息;最终通过基于卷积神经网络的Path-CNN二分类模型识别出更多具有instance-of关系的(实体-概念)对。通过大量实验,我们发现与以前的方法和DBpedia知识图谱相比,本文提出的模型可以为知识图谱中的实体挖掘出更多高质量、细粒度的概念信息。
其他文献
本文结合“3S”技术,利用景观格局分析软件Fragstats3.3,分别从斑块类型水平指数和景观水平指数两个方面对南部县升钟水库库区景观格局现状进行分析与评价。结果表明,研究区林地(
目的:探讨脑血栓患者护理中优质护理的应用效果。方法将104例脑血栓患者分为观察组和对照组,每组52例,分别行优质护理与常规护理,比较两组患者的护理效果。结果观察组护理效果优
半导体激光器因为其转换效率高、波段广、体积小、可靠性高等优点受到了国内外科学家研究的追捧。由于半导体激光器依靠电源注入载流子工作,输入电流的微小变化可能会导致输
简要分析了一台蒸发罐发生焊缝开裂的主要原因,提出防止此类压力容器事故的预防措施.
目的:探讨感染性心内膜炎患者(infective endocarditis,IE)的危险因素、临床表现、实验室检查、病原学情况、心脏彩超和治疗、临床结局等因素,以期提升感染性心内膜炎的诊疗
随着金融市场发展的不断完善,金融市场时间序列数据量日趋庞大,数据产生和累积速度快,传统计量模型不能够满足大数据对非线性、高噪声数据的处理要求。机器学习方法能充分挖
前不久,帮助儿子整理书籍时,无意间翻阅了语文教本上《最佳路径》一文,感想颇深.当新课改的春风吹遍祖国大地时,犹如一夜春风来,千树万树梨花开.各种模式的课堂改革也接踵而来:洋思中
为了坚持走可持续发展的道路,保护乡镇的生态环境是当前我们面临的一个重大问题。乡镇生态环境建设的一个重要组成部分是乡镇森林建设,它关系到乡镇生态环境质量的好与坏。就
伴随着新区建设的快速发展和居住用地的不断扩张,住区建设的现实问题日益显现。合理的住区配套服务设施建设可以提高住区生活品质,吸引大量人口入住,增添新区活力。其中住区
基于对改革开放以来所出现的突破道德底线而引发人们道德焦虑和道德批判的社会问题反思,以北京大学何怀宏教授为主的一些专家学者,在20世纪90年代提出了“底线伦理”理论,试图构建一种适合现代社会成员所遵守的最基本的普遍伦理。但是,由于学者们侧重于从各自关注的视域对底线伦理进行研究,因而底线伦理的分析比较零碎化且没有形成较为系统的体系化建构,故对其研究还需大力推进。当下,我国已经进入中国特色社会主义新时代