论文部分内容阅读
信息技术的日益发展使得包括人文与社会科学领域在内的各个学科的研究资料逐渐被数字化,大量数据库与相关平台得以构建与运营,这极大地方便了研究者从网络上获取研究资料并开展研究,人文学科研究者采用技术手法从大规模的文献资料中发现新的研究问题并取得研究成果,人文学科有向数字人文发展的趋势。在数字学术环境中,人文学者利用数字资源开展研究,图书馆与信息专业人员对数字资源进行分类和组织,对知识进行描述、揭示、存储与管理,以实现知识的重用。在语义网背景下,本体被应用于信息的表示、组织与管理,用户期望不同的系统能共享一套公认的知识库或词汇(术语)集合,提供统一领域模型,以促进和实现系统间数据或知识的共享、交换和重用。人文学科领域本体的构建成为图书馆与信息学科关注的重要问题。
研究以中国历代人物传记资料库(CBDB)的关系数据库为研究对象,构建历史人物领域本体。笔者梳理和分析该关系型数据库所有表格之间的关联,向项目负责人咨询,修正对数据库的核心概念、概念所覆盖表格和表格字段内涵的认识;调研现有的大型本体,结合数据的特点与结构对现有本体进行复用;笔者结合领域专家的指导意见,尝试定义本体构建规则,在该规则的基础上构建初始本体;进一步,笔者依据关系型数据库和本体的特点、两者之间的对应关系,利用Java的JDBC包从关系数据库中提取表格名称、表格列名、表格的主键与外键等模式信息,从类、属性、属性定义域与值域、属性基数等方面构建关系型数据库到本体的映射规则并得到映射结果,扩充与完善初始本体,分析并处理由自定义的本体构建规则和关系型数据库到本体的映射规则得到的本体细节的差异,得到完善后的本体模型;采用本体构建工具protégé将本体中的类、属性、属性定义域与值域等信息存储到软件中,得到本体文件。考虑到本研究所包含的数据体量庞大,本体的类的实例数量较多,人工添加实例的方式耗时较长,研究采用自动化的方式完成实例化工作,具体表现为采用开放数据库互连ODBC连接数据库,在取得对数据库的访问后,读取本体部分类的实例数据,将其写入完善后的本体文件,最终得到容纳了实例的完整版的本体。在得到本体后,研究需验证所构建的本体的有效性与实用性。研究以描述逻辑和语义网规则语言SWRL作为本体推理理论,将本体推理划分为本体一致性的验证和本体蕴涵知识发现推理两个部分,利用protégé的推理机插件Pellet完成推理工作。研究依据SWRL规则的语法与结构,围绕CBDB中的实体分别制定推理规则,将所构建的本体模型作为事实库,将制定的规则作为规则库,将事实库与规则库相结合导入推理引擎中进行推理,得到的推理结果基本符合既定事实,验证了研究所构建本体的有效性。
研究以中国历代人物传记资料库(CBDB)的关系数据库为研究对象,构建历史人物领域本体。笔者梳理和分析该关系型数据库所有表格之间的关联,向项目负责人咨询,修正对数据库的核心概念、概念所覆盖表格和表格字段内涵的认识;调研现有的大型本体,结合数据的特点与结构对现有本体进行复用;笔者结合领域专家的指导意见,尝试定义本体构建规则,在该规则的基础上构建初始本体;进一步,笔者依据关系型数据库和本体的特点、两者之间的对应关系,利用Java的JDBC包从关系数据库中提取表格名称、表格列名、表格的主键与外键等模式信息,从类、属性、属性定义域与值域、属性基数等方面构建关系型数据库到本体的映射规则并得到映射结果,扩充与完善初始本体,分析并处理由自定义的本体构建规则和关系型数据库到本体的映射规则得到的本体细节的差异,得到完善后的本体模型;采用本体构建工具protégé将本体中的类、属性、属性定义域与值域等信息存储到软件中,得到本体文件。考虑到本研究所包含的数据体量庞大,本体的类的实例数量较多,人工添加实例的方式耗时较长,研究采用自动化的方式完成实例化工作,具体表现为采用开放数据库互连ODBC连接数据库,在取得对数据库的访问后,读取本体部分类的实例数据,将其写入完善后的本体文件,最终得到容纳了实例的完整版的本体。在得到本体后,研究需验证所构建的本体的有效性与实用性。研究以描述逻辑和语义网规则语言SWRL作为本体推理理论,将本体推理划分为本体一致性的验证和本体蕴涵知识发现推理两个部分,利用protégé的推理机插件Pellet完成推理工作。研究依据SWRL规则的语法与结构,围绕CBDB中的实体分别制定推理规则,将所构建的本体模型作为事实库,将制定的规则作为规则库,将事实库与规则库相结合导入推理引擎中进行推理,得到的推理结果基本符合既定事实,验证了研究所构建本体的有效性。