论文部分内容阅读
历史报纸资源是“补史料之阙,正史书之误”的最佳底本,是世界文明的知识宝库,也是信息传播的重要载体,全方位记载了中国社会的巨大变革,承载着时代印记,是研究社会史、政治史、经济史、文化史和新闻史的重要信息来源。习近平总书记强调“中华民族优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力,推动中华优秀传统文化创造性转化和创造性发展,是学术工作者应当肩负的文化使命”。历史报纸作为中华优秀传统文化遗产,其繁荣发展彰显了社会文化内容形式及传播媒介的更迭,映射了社会诉求及思想观念的动态衍变,其价值亟待挖掘和探索。尤其是随着数字人文浪潮的涌动,历史报纸作为珍贵的人文史料资源在技术赋能下更能发挥其价值和作用。近年来,大数据和人工智能技术不断进步,知识组织已不仅局限于物理层面的资源外部属性特征,而是深入到认知层面的知识内容单元,以知识元形式表征知识。知识元是知识的最小控制单位,是构造知识系统的核心,通过挖掘知识元之间的语义关联关系,实现知识增值,提升知识组织效率和服务水平。马费成教授曾指出“情报学领域要想取得突破性进展,必将解决两个关键性问题,其一信息知识的组织和表达需要从物理层面的文献单元转换到认知层面的知识单元;其二信息知识的计量单位需要从语法层次向语义层次和语用层次发展”。因此,知识细粒度和精细化组织已成为图情学界研究的重要趋势。历史报纸资源作为重要的知识对象,其价值不言而喻。本文主要从知识组织视角对历史报纸资源进行描述、抽取、关联和应用,并引入知识元理论,根据知识元概念将历史报纸知识元界定为:历史报纸知识元由知识因子和知识关联两个要素构成,从知识外在和内容特征两个维度对历史报纸知识单元进行完整的描述,并准确表达其内涵和外延,是对历史报纸知识内容表示的最小单位。历史报纸知识可以分为基本信息、人物、事件、时空特性、职官、机构等方面,历史报纸知识元既是对某个历史报纸外在基本信息的描述,也是对历史报纸内容中人物、事件等知识点的概述。本文以历史报纸知识元为核心要素,旨在实现历史报纸资源知识单元的细粒度化和语义化组织,并以图谱可视化方式呈现知识元关联关系,推动历史报纸知识深层次开发和利用。鉴于此,本文主要内容如下。一、历史报纸资源语义化知识组织体系框架构建。本章首先从“外因牵引”和“内因驱动”两个维度阐释历史报纸资源语义化知识组织的必要性;其次,分析历史报纸资源语义化知识组织目标及原则;最后,依据历史报纸结构语义和内容语义特征,从知识元描述、抽取、关联和应用4个维度构建历史报纸资源语义化知识组织逻辑框架。二、历史报纸资源知识元描述。本章主要采用元数据和本体两种方式分别构建历史报纸资源知识元元数据描述框架和知识元语义描述模型,充分描述历史报纸资源的物理载体特征和内容语义特征,将历史报纸资源分为人物、时间、空间、机构、事件、职官、主题和文献8个知识元,并以《盛京时报》为例进行知识元描述。三、历史报纸资源知识元抽取。本章通过Paddle OCR文本识别工具、Jieba分词和人工标注等方式构建分词和词性级别的《<盛京时报>·长春汇编》1906-1911年语料库。在此基础上,采用Bi-LSTM、CRF和BERT等深度学习算法对8个知识元(标识术语)进行实体抽取;借助框架表示事件抽取方式设定事件类型、构建规则模板进而抽取事件知识元;利用LDA主题建模方式抽取主题知识元;藉由人工检索和正则表达式抽取实体知识项,以此完成历史报纸资源知识元抽取任务。四、历史报纸资源知识元关联。本章在知识元抽取基础上将知识元关联关系划分为外部结构和内部关联2个维度,前者指知识元实体之间的关系(对象属性),主要采用深度学习算法CNN和Bi-LSTM识别关联关系;后者指知识元实体属性关系(数值属性),主要采用规则模板方式抽取。基于上述两种属性特征构建历史报纸知识元语义关联模型,以SPO三元组方式表示,以Turtle格式进行存储,并采用知识图谱工具Neo4j呈现历史报纸知识元关联关系网络。五、历史报纸资源知识应用系统设计。本章从知识元应用视角入手,结合知识元描述、抽取和关联章节内容,采用生命周期法设计历史报纸资源知识应用系统,并将系统分解为4个子系统,即知识检索子系统、知识元库子系统、知识元实体抽取子系统和知识元实体关系识别子系统,各个子系统互联共通。在此基础上,从知识描述粒度、知识揭示维度和知识加工程度3个层面解析历史报纸知识应用系统的实现效果。历史报纸资源语义化知识组织是一段漫长的开发旅程。本文从知识元细粒度视角着手,探索历史报纸资源从描述、抽取、关联到应用的全流程,旨在为用户提供一个语义化和集成化的历史报纸知识应用系统,从而发挥历史报纸资源的多元价值,延续和继承报纸中蕴含的中华传统优秀文化!