论文部分内容阅读
随着材料信息学的不断发展,出现越来越多的金属材料数据源,在这些数据源中包含着大量的金属材料知识和丰富的结构。然而,这些材料数据源中的存储结构和命名方式都存在一定的差异,使用传统的关键字查询方法在这些数据源中进行查询,其效果不是非常理想。为了提高其检索性能,本文提出了一种基于多材料本体的语义查询扩展方法,即需要对用户输入的种子查询概念在多个材料本体中进行语义扩展,然后在材料数据源中进行查询,使其查询结果中能够包含更多更加准确的相关结果。本课题所做的主要研究工作如下:1)基于多材料本体的概念扩展。首先,根据多个材料本体提出了一种相似性概念扩展策略S-SMOA,该策略采用基于字符串的SMOA算法以及材料本体的上下位结构在多个材料本体中对用户输入的种子查询概念进行相似性概念扩展。然后,利用基于集合的Jaccard算法设计出一种相关概念扩展策略P-Jaccard,该策略利用材料本体中的对象属性以及Jaccard算法获取相关概念。2)扩展概念的过滤和补充。首先,为了提高概念扩展的准确率,提出了一种基于Leacock-Chodorow算法的概念过滤策略,对扩展概念集合中的概念进行过滤。其次,为了保证其概念扩展的召回率和完整性,需要对扩展过滤后的概念进行一次概念补充,利用基于结构的Leacock-Chodorow算法对种子查询概念进行扩展,将扩展后的概念与过滤后的概念进行合并补充,保证概念扩展的完整性。3)扩展概念在数据源中的查询处理。首先,利用基于字符串算法SMOA的匹配策略,对扩展概念在数据源中进行概念定位,得到匹配概念集合。然后设计出了一种基于多本体的语义查询处理方案,该方案根据RDF数据的三元组结构的特点以及用户所选的不同的查询模式动态的生成SPARQL语句,并在数据源中进行查询,其查询结果可以以文本和可视化两种方式展示给材料数据用户。基于多材料本体的语义查询扩展机制,不仅使用SMOA和Jaccard算法进行概念扩展,还充分利用了材料本体的上下位结构以及本体中概念的属性,扩展到更多相关概念。同时还使用了Leacock-Chodorow方法对扩展概念进行过滤和补充,提高了概念扩展的准确性和完整性。为材料领域用户和专家提供了一种语义查询扩展方法,并提供了一个基于多材料本体的语义查询扩展系统。