基于本体和语义相似度的Deep Web数据源发现技术

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:coolfish150
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为Deep Web数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。
  关键词:Deep Web本体;语义相似度;启发式规则
  中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599 (2012) 20-0000-02
  Deep Web数据源发现一般指从Web中搜索到含有后台数据库的Deep Web站点,具体工作包括Web页面爬取、表单特征抽取、查询接口判定等部分,涉及的主要概念有:
  定义1. Deep Web数据源(Deep Web Data Source, WDS)可以描述为一个三元组:WDS=(I, R, D)。其中:
  (1)I指Deep Web数据源查询接口,即用户提交查询的入口;(2)R指通过查询接口提交查询请求后Deep Web数据源返回的结果集;(3)D指Deep Web数据源后台数据库。
  定义2. Deep Web查询接口(Query Interface,QI)用I表示,可以描述为:I=(I_Name,Attributes,Number),其中:
  (1)I_Name指抽取得到的查询接口名称;(2)Attributes定义为一个二元组数据集合,表示查询接口中所有的属性名-值信息,Attributes={a1, a2……an}。其中,ai=(Name, Values),Name为属性名称,Values为属性值域。(3)Number表示查询接口中属性数目,用N表示。
  定义3.页面表单(Page Interface,PI)可以描述为一个四元祖:PI=(ID, PI_Name,Attributes,Number),其中:
  (1)ID指页面表单的编号,用于惟一标识一个页面内的某表单;(2)PI_Name为表单名称,Attributes、Number与查询接口中的定义相同。从查询接口与页面表单的定义中可以得到,I∈PI。
  定义4.查询接口判定(Query Interface Determining, QID),假设页面Page中同时含有表单:PI1、PI2…,则QID定义为按照一定的方法对所有表单进行判定,看是否有表单是查询接口。
  1 本体模型构建
  由于Deep Web具有信息量大、异构性等特点,使得Deep Web数据源具有明显的领域限定特点,因此,本文引入领域本体模型辅助完成数据源发现工作。
  本体是一个知识表示模型,用于定义一个领域内的基本概念、关系和规则,本体模型构建则是在领域专家的协助下明确领域的概念及概念之间的关系,构建领域本体模型。针对Deep Web查询接口判定工作需要,本文给出了一个本体模型。
  定义5.本体模型可以描述为一个六元组(C, T, R1, PI, L, R2),其中:
  (1)C表示领域内的一个概念划分,每个概念ci都有取值范围,包含若干个具体取值,且 ,其中i≠j;(2)T为概念Ci的取值范围,有若干具体取值决定,Ci=T={t1,t2…}由此可得Ci至少对应有一个取值结果。(3)R1表示T内取值之间的关系,查询接口的语义信息可以由若干个概念表示,概念则对应一个或多个具体取值,具体取值之间的关系影响其在查询接口中的显示。(4)PI指页面Page内的表单,在表示时用经过语义信息提取后的Attributes值表示;(5)L表示领域本体模型的集合,且有L={l1, l2…,lm},每个具体的领域li用概念C具体表示;(6)R2表示PI与L之间的关系,如果PI是一个查询接口,则定有PI属于某个领域li,否则PI≮L。
  2 基于语义相似度的查询接口判定
  查询接口作为Deep Web数据源的唯一入口,具有非常高的价值,可以通过判定页面表单是否为查询接口来确定站点是否为Deep Web数据源。本文利用网页表单特征抽取获得表单语义化表示,并在本体模型的基础上采用语义相似度计算方法完成查询接口判定工作。
  2.1 网页表单特征抽取
  常见的网页表单都是用HTML语言描述,通过分析页面HTML代码,可以发现网页表单的主要内容包含在
...
标签内,标签内的代码为实际表单的HTML代码。
  经过表单特征分析后,得到表单对应HTML代码和特征集合。在特征抽取完成后,需要根据特征集合信息提取得到表单的语义信息表示,例如从表单的特征集合中可以获得表单语义表示为:PI=(书名, 作者, 出版社)。
  2.2 语义相似度计算
  经过特征抽取后,表单可以表示为语义信息,如果一个表单是查询接口,则它的语义信息必定与领域本体模型非常相近。因此,在进行查询接口判定时,需要计算表单语义信息与领域本体模型之间的相似度,本文在HowNet[6-7]的基础上给出了语义相似度计算方法。
  定义6.表单PI与领域本体模型li的相似度 ,在计算 时,通过计算表单PI所有语义项与本体模型所有概念之间相似度后给出,方法为:
  其中vj为表单PI的语义项。
  定义7.目标领域本体模型,计算PI与多个领域本体模型的集合L中各元素的之间的相似度,并取其中相似度最大的本体模型作为PI的目标领域本体模型。用公式描述如下:领域本体模型集合中某一元素为目标领域本体模型lt当且仅当t满足 且 其中β为给定阀值。
  定义8.表单PI的语义项vj与领域本体模型li中概念ck的相似度 为语义项vj与概念ck对应概念指V的最大相似度:
  定义9.语义项vj与概念ck具体概念值vm的相似度 ,语义项和具体概念值都是由词语表示,因此 值与 相同,其中w1表示vj,w2表示vm,公式描述如下:
  定义10.义原相似度 ,义原相似度计算时利用义原之间的距离来衡量,两个义原相似度随着距离增大而减少,参照HowNet义原层次树中的距离计算方法Dis,给出 计算公式: 其中 是可调节参数。
  参照定义6至定义10的计算公式,若能得到表单PI与领域本体模型集合L中最为匹配度且相似度大于阈值的目标领域本体模型,则定义表单PI为查询接口。否则,PI不是一个查询接口。同时本文为了进一步提高查询接口判定的效率,在实际处理时通过启发式规则辅助完成接口判定,所采用的启发式规则如下:
  (1)用n表示页面表单中控件数目,给定一个阀值N,对于 n  3 结语
  基于本体和语义相似度的数据源发现方法,利用了领域背景知识和语义计算方法,以及启发式规则,取得了较好的实验效果,平均准确率达到了86.6%,具有很好的可行性和有效性。
  参考文献:
  [1]方巍,胡鹏昱,赵朋朋,崔志明.基于语义的Deep Web数据源自动发现技术[J].微电子学与计算机,2007,Vol 24(9):1799-1802.
  [作者简介]
  卓林(1986-)男,汉,江苏省徐州市人,硕士研究生,从事智能化信息处理工作。
其他文献
本文应用边界元法分析了不对称平板介质波导不连续性结构的散射特性,编制了一个通用的计算机程序,对几个算例进行了计算,结果与已发表文献一致.
随着信息化时代的发展,人们对信息技术的应用水平不断提升,计算机教学已成为国内中职的重点学科之一,现代化教学对之也提出了很高的要求。但是在中职计算机教学中仍然存在很多问
基于医院信息化系统的Web开发与数据库管理,是医院信息化系统面向广域网信息发布的主要形式,本文介绍了医院网站前台(页面部分)与网站后台(PHP+Mysql数据库部分)设计的原则和方法,同
摘要:以智能交通理论为基础,通过计算机信息技术完成公路交通连续车流量算法,对道路交通车流量进行统计、分析,为公路应急指挥、路政管理、公路养护等方面提供公路交通运行管理的全方位解决方案。  关键词:智能交通;连续车流量;算法;车辆检测器  中图分类号:TP274.2 文献标识码:A文章编号:1007-9599 (2011) 10-0000-02  Highway Continuous Traffic
采用应用处理器+基带处理器的系统设计方案,以S3C2410为应用处理器、SIM300C为基带处理器设计了一款智能手机。给出了智能手机的硬件结构及系统软件平台的搭建与设计方法,结合GS
翼面是飞行器对正向入射波的后向RCS的重要来源,为了减缩翼面的后向RCS,一般可在翼面的前缘改用吸波结构以减小翼面对后向的散射.在建立吸波结构前缘翼面的物理模型后,采用快
随着信息时代的到来,利用现代远程教育网络教学模式教学已在大、中专学校蓬勃开展,取得较大的实效。但是在国内,利用现代远程可视教育农村电类从业人员培训还很少,人们对这一课题
依据对旋转四磁极磁化场的物理要求,按函数逼近理论给出了磁化场及其激励源的解析表达式.利用耦合波理论和网络理论相结合的方法,系统分析了旋转四磁极磁化铁氧体波导系统的
文中将具有复频率参数的PML(CFS-PML)边界条件引入到时域伪谱(PSTD)算法中,并利用卷积PML(CPML)方法予以实现,CPML的吸收性能作为时间的函数被给出.与传统PML相比,该边界条件
本文利用时域有限差分法分析了微带线和微带不连续结构。采用电流馈电模型激励问题空间,与电压馈电模型相比,它简化了馈电模型算法,提高了计算精度。考虑到辐射损耗,借助Fourier变换和电