论文部分内容阅读
利用数据库技术、社会网络分析、地理信息系统等综合手段进行历史地理研究是目前学界一个重要趋势。引入历史人物关系研究可以丰富历史地理研究内容,而数据库建设是历史人物关系研究的基础工作,六朝人物关系数据库建设目前仍然存在空白。在利用历史文献进行数据库建设时,由于历史文献资料的非结构化、时间记录的模糊性、地理空间信息描述的不确定性等特点,在数据提取、时空数据定位以及历史人物关系数据的组织上存在一定困难。本文探索从非结构化的历史文献中自动提取信息的方法,解决从文言文文本中快速提取人物信息的方法与数据自动清洗算法;然后研究六朝人物关系时空数据模型,建立统一的历史时空框架,解决模糊时间信息的定位与转换以及不同时间地理位置的编码;最后建立六朝人物关系数据库与六朝人物关系地理信息系统,通过家族树分析、社会网络关系分析与空间分析对六朝人物的亲属关系、社会关系与地缘关系进行探索性分析。本文以《建康实录》为基础文献,利用VBA、Python以及正则表达式,探索从历史文献中自动提取历史人物信息的方法。对中国历代人物传记资料库(CBDB)数据库结构进行深入剖析,发现其人物关系过于复杂以及人物关系构建缺乏统一时空参考的缺点。根据六朝人物关系数据的特点,改进CBDB人物关系结构,在统一的历史时空框架下提出六朝人物关系数据的组织方式,将六朝人物关系数据在统一的时空框架下有机组织在一起。建立六朝人物关系数据库与六朝人物关系地理信息系统,初步满足对六朝人物关系研究的需要。主要工作与研究成果如下:(1)研究灵活的可扩展的六朝人物关系的组织方式。对CBDB中人物的亲属关系设计进行抽象、社会关系类别进行简化、地缘关系进行重新定义。将亲属关系类别抽象为三种基本的原子亲属关系(父子,兄弟,夫妻),利用三种基本关系可以完成对其他亲属关系的构建与表示,一定程度提升了亲属关系表示方式的灵活性,有效减少了亲属关系数据冗余与错误。去除了社会关系双向定义,使之更符合数据库设计规范。将地缘关系从简单的历史人物与地理相关的履历信息,扩展为履历型(静态属性)与活动型(与人物活动、事件相关)两类,不仅对历史人物与地理位置相关的静态属性进行记录,同时对于历史人物活动中涉及到的地理信息进行记录,加强了人物关系中地理信息的表达。(2)研究六朝人物关系的时空数据模型。将历史文献中年号纪年统一转换为公元纪年,对六朝时期不同朝代分别选择一个标准时间即时间断面,以《中国历史地图集》中对应的历史地图为基础,建立不同时间序列的空间参考标准,对六朝历史人物的地理位置进行统一编码,构建统一的六朝人物历史时空框架,基于统一的历史时空框架,研究并设计六朝人物关系时空数据模型,使六朝人物关系满足地理信息系统分析需求。(3)研究从文献中提取历史人物数据的方法。利用VBA、Python与正则表达式,从《建康实录》中半自动化提取人物关系数据,完成了从命名实体标注、数据自动提取、数据清洗、数据校验、数据编码到数据入库的一系列过程。设计滑动窗口迭代算法对初步提取到的人物姓名数据进行补全与合并处理,可以有效的提高数据处理效率;提出关系模式匹配法,对人物的属性信息进行快速提取。(4)研制六朝人物关系数据库与地理信息系统。对《建康实录》中六朝人物关系数据进行采集,基于六朝人物关系时空数据模型,建设六朝人物关系数据库并展开实证研究。初步满足了对于六朝人物基本信息的查询,对亲属关系的家族树展示,人物社会关系的网络构建与人物地缘关系的地理空间可视化等历史地理研究的需要。