论文部分内容阅读
在过去二十多年里,古籍数字化取得了很大的成绩和发展。在吸收传统古籍整理的成果的基础上,古籍数字化较好地解决了古籍的保存和利用之间的矛盾。尤其是古籍全文数据库检索系统的发展,对人们检索和利用古籍中的内容提高了显著的效率和方便。但由于古籍全文数据库检索系统只能依照检索词匹配来进行检索,并不能解决抽取和聚集相关史实的问题。 本文利用语义网和本体论的相关研究成果,以《三国志》为对象,抽取分散的历史年代知识元,并建立三国时期的历史年代本体,实现了相关的历史年代知识元的检索和聚集。在本论文中,主要完成了如下工作: (1) 在分析《三国志》中历史时间表示类型的基础上,利用历史年代特征,通过程序,实现了从史书中抽取历史年代知识元,克服了因纪传体体例和国别造成的史实的记述分散问题。利用标引的年号纪年+原文整句+抽取来源的结构,同时利用XML/RDF的数据描述模型来表现历史年代知识元,使人们对史书的利用从文献级深入到知识元级,提高了对史书中知识的控制和利用。 (2) 在分析皇帝、国别、年号等相关概念的基础上,利用OWL本体描述语言,建立了三国时期(含东汉末年到西晋初年这一历史跨度)的历史年代本体。通过这一本体,建立了三国时期不同国别的纪年间的横向对应关系,以及皇帝、国别和年号间的关系。 (3) 在已有的历史年代知识元库和历史年代本体库的基础上,在.NET平台上,利用RDF解析和Web Service技术构建了一个基于本体的历史年代知识元检索系统原型。在该系统中,提取历史年代检索词,通过解析历史年代本体,给出与之相关的皇帝、国别和年号纪年,并从历史年代知识元库中提取相关历史年代知识元,以实现相关历史年代知识元的聚集和表示。 (4) 分析了历史年代知识元利用的相关问题,并给出了今后工作的改进方向