基于Wikidata属性的人物词表属性互操作研究

来源 :山西大学 | 被引量 : 0次 | 上传用户：sprinia

【摘要】

：

词表是用来描述每个实体概念而精心选择的一系列权威术语,即短语、词汇的集合,能有效解决同义词或多义词的歧义问题。词表作为语义中心,有助于信息集成和异构数据集的互连。

【作者】

：

崔西燕

【出处】

：

山西大学

【发表日期】

：

2020年01期

【关键词】

：

Wikidata 人物词表互操作属性映射分类体系 RDF数据描述

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词表是用来描述每个实体概念而精心选择的一系列权威术语,即短语、词汇的集合,能有效解决同义词或多义词的歧义问题。词表作为语义中心,有助于信息集成和异构数据集的互连。人物词表包含描述人物特征信息的词汇集合,它的创建为认识人物实体提供了业界普遍认可的专业性术语。不同研究人员对人物描述侧重点不同、细粒度不同、表达形式不同,使得人物领域词表的创建呈现出实体关系复杂、主题类型多样、概念术语涵盖广泛等特点,不可避免地造成不同领域人物数据彼此有交叉且覆盖有相同概念,从而对用户使用人物词表中某概念造成困扰。不同词表的创建在丰富人物实体信息多方位的表达的同时,却也加重了用户信息检索的负担。大规模语义知识库汇集了数以万计的关联实体数据,其分类导航式的信息分布,能满足不同层次用户对各种数据的个性化需求,是当前用户汲取或研究数据的首选,有着极高的数据使用率。因此通过实现知识库与词表的互操作能有效解决词表重用率低及用户检索不便的问题,有效实现用户一站式信息检索的需要,同时能优化知识库的数据,提升其数据专业性。此外,在互操作映射结果上借助大型知识库的数据分类模式,对数据进行内部剖析,能更有效地提高用户对词表的利用率。本文基于Wikidata知识库和关联开放词表之间的互操作问题,以人物领域数据研究为例进行了理论探讨和实证研究,主要围绕词表互操作流程从以下几个方面开展:(1)互操作相关理论。通过分析互操作相关理论及基本互操作流程,提出相应的映射类型及方法。鉴于互操作映射结果的规范化展示,对资源描述框架的相关理论进行阐述。(2)人物数据候选词表确定。根据互操作流程,通过类及属性等相关理论详细分析Wikidata及LOV中人物数据词表的特征,以稳定性、覆盖率、关联性为词表筛选原则,确定最终候选词表,以便于为后续词表匹配结果的精确性奠定基础。(3)Wikidata与人物词表属性的相似度匹配。根据候选词表确定以Wikidata为中心的多个人物词表互操作模型。分别提取候选词表及Wikidata知识库的人物数据集,并经过数据清洗进行统一化整理。由于多个词表的异构性,选择多个属性描述信息进行匹配,包括属性名称、别名、上位属性等,结合相似度算法进行属性对齐。利用Wikidata中的外部词表链接关系,对实验结果进行检验。(4)根据Wikidata属性类型,从多角度提取属性概念术语,完成属性分类实现资源整合及一站式交叉搜索多源数据的目的。此外,利用RDF(S)/OWL语言将属性匹配数据转化成规范化数据,并用Protégé工具进行可视化展示。

其他文献

甘肃省违法占用耕地的产能损失计量研究

近年来,经济的快速发展和城市化的进程加快,导致城市和农村建设用地急剧扩张,经济发展和耕地保护之间的矛盾日益突出。由于政府自身行为的缺失,人民群众对于耕地保护的意识不

学位

违法占用耕地耕地产能产能损失空间分布特征甘肃省

间歇通信下船舶轨迹跟踪与编队控制

海洋孕育了生命,也蕴含着丰富的资源。近些年来,国内外社会加大了对海洋探索的力度,也更加重视对制海权的掌控。在新的时代背景下,船舶被赋予了重要的使命,为了在不同环境下

学位

间歇通信轨迹跟踪编队控制编队-包含控制李雅普诺夫函数

外资研发嵌入、自主创新能力与市场创新绩效

为了深层次理解外资研发溢出机制、科学合理制定研发类外资利用政策,本文基于1998-2016年30个省市自治区(以下简称省)面板数据,在模型推演外资研发嵌入、市场创新绩效和自主

学位

外资研发嵌入公共物品市场创新绩效自主创新能力空间溢出

甘草次酸对团头鲂生长、抗氧化能力及品质的影响

试验选取草食性淡水鱼团头鲂(Megalobrama amblycephala)作为试验动物,初步探讨了外源添加甘草次酸对团头鲂生长、体脂沉积、血浆生化指标、肠道消化酶活性、抗氧化能力及去

学位

团头鲂甘草次酸生长脂肪沉积抗氧化能力去除异味能力

某市鸡场硫化氢气体含量调查及其对鸡中性粒细胞外捕网的影响

H_2S是一种广泛存在与自然界中的无色的有臭鸡蛋气味的易燃且有毒的气体。它可由多种方式产生。随着经济和社会发展,人们越来越关注食品安全与自身健康的关系,进而注意到畜禽饲养过程中的生活环境问题。H_2S作为一种畜禽舍常见的污染物已经严重危害畜禽产品安全,危害人们健康。H_2S暴露会刺激呼吸系统,引起咳嗽、炎症,还可引起中性粒细胞的损伤,导致机体的免疫功能障碍。2004年,中性粒细胞外捕网(NETs)

学位

H2S中性粒细胞外捕网(NETs)鸡中性粒细胞免疫功能

评价四种抗原在非典型脊柱结核辅助诊断中的作用

目的检测结核杆菌热休克蛋白60(MTB Hsp60)、结核杆菌热休克蛋白10(MTB Hsp10)、热休克蛋白70(Hsp70)和热休克蛋白16.3(Hsp16.3)在非典型脊柱结核患者血清中的含量,探讨MTB H

学位

非典型脊柱结核结核杆菌热休克蛋白诊断

基于深度学习的多工况下轴承故障诊断及预测

滚动轴承作为旋转机械设备中不可或缺的重要部件,通常工作在高速、高温、重载的恶劣环境下,滚动轴承故障发生及性能退化往往在整机故障中占大部分比例,甚至会导致整个设备停

学位

多工况自编码器卷积神经网络长短期记忆网络趋势预测

淡水鱼消化道噬菌体多样性及噬菌体受体的遗传学分析

由于水产养殖业的抗生素滥用,导致水产致病菌的耐药性逐年增加,严重危害食品安全。本文以淡水鱼的肠道为样品,分离致病菌和噬菌体,研究鱼类消化道中噬菌体种群多样性,同时采

学位

噬菌体气单胞菌多样性噬菌体受体

心肌分层应变评价慢性中重度主动脉瓣反流患者的左心室收缩功能

目的:通过定量测量慢性中重度主动脉瓣反流(aortic regurgitation,AR)患者左心室心肌分层应变参数,反映患者心肌受损情况,评价患者左心室收缩功能改变。方法:选择慢性中重度A

学位

分层应变主动脉瓣反流左心室收缩功能二维斑点追踪

基于卷积神经网络的多导联心电图自动分类方法研究

随着人们生活的节奏日益加快以及人们精神压力的陡增,诱发了心脏类疾病已成为对人体健康构成重大威胁的常见疾病。心电图是现代医院对心脏类疾病基本常规诊疗技术之一,可以为

学位

多导联心电图ICBEB心电数据库心律失常卷积神经网络Resnet50

基于Wikidata属性的人物词表属性互操作研究

与本文相关的学术论文