一种基于NSGA—II算法的本体匹配技术

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:areschicken
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本体可以用于克服语义异质问题,但是直接使用不同的本体会将语义异质问题提升到更高的级别。本体匹配过程是通过确定两个本体中的实体之间的关系,从而解决两个本体间的异质问题。目前提出的各种本体匹配方法中,基于进化算法的本体匹配技术应用比较广泛,但是基于进化算法的本体匹配技术的效率和最后获取的本体匹配结果的质量都差强人意。为了解决这一问题,本文在提出了一种新的基于NSGA-II的本体匹配技术。在本文的工作中,提出了一种新的基于信息论的相似度度量技术,为本体匹配问题构建了一个多目标的优化模型,针对性地设计了一种NSGA-II算法以求解该问题。实验结果表明我们的方案是有效的。
  关键词:本体匹配技术 NSGA-II 进化算法 相似度度量技术
  中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2017)12(b)-0129-02
  本体被认为是一种实现异质语义数据源交互的方案。然而由于人的主观性,同一个实体(如类、属性或个体)在不同的本体中可能用不同的名称或方式来定义。因此,直接使用不同的本体会将语义异质问题提升到更高的级别。本体匹配过程是通过确定两个本体中的实体之间的关系,从而解决两个本体间的异质问题。当本体规模庞大的时候,手动匹配本体是不可能的,因此人们近年来提出了各种本体匹配技术。通过各种能够提供本体元素之间相似度数值的相似度度量技术,本体匹配技术能够识别本体中的元素是否相同。总体上来说,相似度度量技术可以分3种:一种是基于字面的,一种是基于语言学的,还有一种是基于分类结构的。基于字面的相似度度量技术计算本体实体名称的字符串编辑距离。基于语言学的相似度度量技术通过电子词典来(如WordNet)来确定本体实体名称之间的同义关系。基于分类结构的相似度度量技术通过测试本体周边实体的相似度来估算该实体的相似度值。然而,上述任何一种相似度度量技术的性能都无法做到在所有的应用场合中都能比其他技术好,严重影响了本体匹配结果的质量。因此,如何设计一种高语义识别能力的相似度度量技术是本体匹配技术的关键。
  1 相似度度量技术
  除此之外,当两个待匹配本体中拥有的实体规模十分庞大的时候,从某种程度上来说,进化算法通常会被用于计算本体匹配结果。最著名的基于遗传算法的本体匹配技术是GOAL,它的本体匹配结果是通过遗传算法来确定最优的相似度度量技术的集成权重,参考的方案详见参考文献。但是这些方法只用了一种本体匹配结果的质量度量指标来评价本体匹配方案,可能导致本体匹配结果在进化过程中有偏好地改进,降低了最终的本体匹配的水平,同时对已有的基于进化算法的本体匹配技术时间消耗很大。因此,如何设计一种高效的基于进化算法的本体匹配技术是本体匹配领域的另一个挑战。
  相似度度量技术是本体匹配技术的基础。本文引入了香农的信息理论,提出一种新的语义相似度度量技术。该技术能够组合基于字面的、语言学的和分类结构的相似度度量技术的特点以计算实体的相似度值。具体来说,本文的方法是通过实体提供的信息量来计算它们之间的相似度值。为了准确估计实体的信息量,本文提出通过本体的分类结构来获取实体内部的和其所有子类的信息以构建实体的信息档案,然后对于本体中的两个实体,通过以下的非对称度量的方式来计算二者的相似度值。当获取某个本体匹配结果之后,相应的相似度矩阵可以按照如下方法生成:矩阵的行列分别代表两个本体中的实体,矩阵中的元素代表相应实体的相似度值,过滤掉相似度矩阵中可信度不高的匹配结果。
  2 基于实例的NSGA-II算法
  2.1 基于实例的本体匹配多目标优化模型
  这里我们预先定义好两个匹配本体OA和OZ,本体匹配问题的多目标优化模型如下:假设n是本体OA中的实例个数,m是本体OZ中的实例个数。群体中的每个个体是一个长度为n+1的一维数组,将当前代总群和父代种群放在一起,取出冗余的个体之后,依据NSGA-II的非支配排序和拥挤度计算方案来选出下一代种群。
  2.2 NSGA-II算法
  NSGA-II算法有3个算子,即选择算子、交叉算子和变异算子。本文采用赌轮盘选择算子,该算子为每一个个体赋予一个正比于它们的适应度值的选择概率,这就使得适应度值最高的个体拥有最高概率产生下一代个体,而适应度值不是那么高的个体也有机会产生下一代个体。选择算子依据变异概率判断某个基因位上的元素是否需要产生变异。若变异发生在某个基因位上的话,将该基因位上的值由1变为0,或者由0变为1。
  2.3 有效的提升策略
  由于在适应度计算过程中需要读取不同的本体匹配结果,集成并评价,用时很大。且每次将要集成的本体匹配结果读入内存,内存消耗也很大。因此本文在运行算法之前,将所有的相似度度量技术对应的相似度矩阵一次读入内存以提高算法运行的效率。精英策略是指每一代拥有最高适应度值的个体都可以尝试成为精英个体,精英个体另外保存并在算法终止后返回给用户。
  2.4 实验的结果与分析
  实验采用本体匹配领域公认的2012年本体匹配评价竞赛(ontology alignment evaluation initiative,OAEI)的测试数据集,其中的数据是Benchmark中所有测试数据的结果的均值。同时为了区分已有的本体匹配系统,本文采用传统的recall、precision和f-measure重新度量,从而获取本体匹配结果。通过对给出的基于实例的NSGA-II方法的运行结果是30次独立运行后得出的平均结果,与通过随机方法和概念聚类算法构建的局部标准匹配比较的结果运行时间进行比较,实验结果表明,在测试数据集Benchmark中,基于实例的NSGA-II方法的解的f-measure排在第1位,precision排在第2位。在测试数据集Anatomy中,基于实例的NSGA-II方法的解的f-measure排在第2位,而precision排在第1位。在测试数据集Library中,基于实例的NSGA-II方法的解优于所有其他的本体匹配系统。3种测试数据集的结果表明,基于实例的NSGA-II算法是可行并且有效的,通过在本体匹配过程中使用本体中的实例信息可以大大提高本体匹配结果的准确性,具体体现在实验结果中较高的precision值。
  3 结语
  本文建立了一个全新的多目标优化模型,该模型匹配以查全率和查准率为目标的本体,并提出了新的相似度扩散算法和实例相似度度量技术,根据这种算法重新设计了个体编码方案,从而提出了一种新的基于实例的NSGA-II本体匹配方法。实验数据采用OAEI 2012的Benchmark、Anatomy和Library测试数据集,通过对2组本体30次独立运行后得出的平均结果表明,基于实例的NSGA-II本体匹配方法获取的本体匹配结果的质量在目前流行的本体匹配技术中排名前列,并且查准率和查全率有了明顯的提高。
  参考文献
  [1] 陈亮.一种改进的本体匹配方法研究[D].吉林大学,2015.
  [2] 邹黎君.基于多策略的本体匹配研究[D].苏州大学,2013.
  [3] 任建欢.基于多策略的本体匹配系统设计与实现[D].东南大学,2015.
  [4] 崔金栋,徐宝祥.IOPE视角下网格服务本体匹配算法研究[J].现代图书情报技术,2014(15):10-17.
  [5] 薛醒思.基于NSGA-Ⅱ的大规模本体映射方法[J].计算机应用,2014(6):1622-1625.
  [6] 薛醒思,王金水.采用双向个体标注的本体匹配技术[J].福州大学学报:自然科学版,2016(1):64-70.
其他文献
古人云:“读书破万卷,下笔如有神。”由此可见,阅读和写作是密不可分的,二者相互助力,相辅相成。新课程标准中也曾提出:引导学生开展整本书阅读活动,使其对优美词语、精彩句
这是一篇视野开阔、眼光也深透的好文章,作者以理性、客观和科学的立场分析比较了DVD与超级VCD诸多方面的优势与劣势,从而揭示了它们的市场前景。文章的观点和结论与本刊编辑
"2011北京国际道路运输、城市公交车辆及零部件展览会"上,东风扬子江汽车(武汉)有限责任公司(以下简称"东风扬子江")携WG6120NHA4型后置天然气动力、WG6120HPEVAA型混合动力和WG6120C
语文是小学教育的重要组成部分,而作业设计与安排是其中关键的环节,也是巩固学生基础知识的有效手段。在新课程环境下,教师要根据小学生的综合能力,创新设计语文作业内容与形
现代桥梁建筑中绝大多数都是由钢筋和混凝土两种材料共同组成,在该类桥梁施工中钢筋保护层厚度在很大程度上决定着混凝土结构使用功能和寿命,保护层厚度分为受力主筋保护层厚
为解决物联网中射频识别(RFID)系统多标签碰撞问题,在分析二进树算法和ALOHA算法的基础上,提出了一种ALOHA和多叉树的混合型(HAMT)算法。该算法首先采用动态帧时隙ALOHA(DFSA)算法进行标签识别,然后根据未识别标签数目动态选择多叉树算法进行标签识别,从而保证了标签100%被识别,提高吞吐率和缩短了识别时间。仿真结果表明,当待识别标签总数达到1 000时,HAMT算法的吞吐率可以保
运用文献资料法、逻辑分析法和访谈法,对影响竞技健美操动作一致性的因素进行分析。研究发现,影响竞技健美操集体项目一致性的因素包括:(1)运动技术,包括操化动作的一致性,难度动作
为培养学生们良好的核心素养,增强学生们的民族认同感和文化自豪感,在高中教育阶段,语文学科需要不断的根据学生们的实际情况,有效的将我国优秀的传统文化渗入到日常教学中,
在新冠肺炎疫情期间,教育部号召“停课不停学”,因此学校实行了线上教学活动。在隔空授课的情况下,如何保证教学的有效性,本文就在中职语文线上教学中开展微写作进行实践探索
制造业是国民经济的主体,推进智能制造是顺应世界制造业发展趋势、加快我国经济发展方式转变的必然选择,也是推动制造业高质量发展和建设制造强国的重要举措。当前,世界主要工业发达国家均在积极布局相应的国家战略,推动智能制造加速发展,如德国的"工业4.0"、美国的"工业互联网"、日本的"工业价值链"等。