论文部分内容阅读
词表是用来描述每个实体概念而精心选择的一系列权威术语,即短语、词汇的集合,能有效解决同义词或多义词的歧义问题。词表作为语义中心,有助于信息集成和异构数据集的互连。人物词表包含描述人物特征信息的词汇集合,它的创建为认识人物实体提供了业界普遍认可的专业性术语。不同研究人员对人物描述侧重点不同、细粒度不同、表达形式不同,使得人物领域词表的创建呈现出实体关系复杂、主题类型多样、概念术语涵盖广泛等特点,不可避免地造成不同领域人物数据彼此有交叉且覆盖有相同概念,从而对用户使用人物词表中某概念造成困扰。不同词表的创建在丰富人物实体信息多方位的表达的同时,却也加重了用户信息检索的负担。大规模语义知识库汇集了数以万计的关联实体数据,其分类导航式的信息分布,能满足不同层次用户对各种数据的个性化需求,是当前用户汲取或研究数据的首选,有着极高的数据使用率。因此通过实现知识库与词表的互操作能有效解决词表重用率低及用户检索不便的问题,有效实现用户一站式信息检索的需要,同时能优化知识库的数据,提升其数据专业性。此外,在互操作映射结果上借助大型知识库的数据分类模式,对数据进行内部剖析,能更有效地提高用户对词表的利用率。本文基于Wikidata知识库和关联开放词表之间的互操作问题,以人物领域数据研究为例进行了理论探讨和实证研究,主要围绕词表互操作流程从以下几个方面开展:(1)互操作相关理论。通过分析互操作相关理论及基本互操作流程,提出相应的映射类型及方法。鉴于互操作映射结果的规范化展示,对资源描述框架的相关理论进行阐述。(2)人物数据候选词表确定。根据互操作流程,通过类及属性等相关理论详细分析Wikidata及LOV中人物数据词表的特征,以稳定性、覆盖率、关联性为词表筛选原则,确定最终候选词表,以便于为后续词表匹配结果的精确性奠定基础。(3)Wikidata与人物词表属性的相似度匹配。根据候选词表确定以Wikidata为中心的多个人物词表互操作模型。分别提取候选词表及Wikidata知识库的人物数据集,并经过数据清洗进行统一化整理。由于多个词表的异构性,选择多个属性描述信息进行匹配,包括属性名称、别名、上位属性等,结合相似度算法进行属性对齐。利用Wikidata中的外部词表链接关系,对实验结果进行检验。(4)根据Wikidata属性类型,从多角度提取属性概念术语,完成属性分类实现资源整合及一站式交叉搜索多源数据的目的。此外,利用RDF(S)/OWL语言将属性匹配数据转化成规范化数据,并用Protégé工具进行可视化展示。