论文部分内容阅读
WWW给信息技术以及人们日常生活带来了一场革命。然而,大多数现有网络内容的形式都是为人使用而设计构造的,对于计算机来说却难以理解。语义网络的目的就是开发一种以机器可理解的形式来描述信息的语言。
XML(Extensible Markup Language,可扩展标记语言)独有的特性带来了语义网络的发展。目前,常用的XML技术与工具包括SAX(Simple API for XML,简单应用程序接口)、DOM(Document Object Model,文档对象模型)、XSL(Extensible Stylesheet Language,可扩展样式表语言)、XSLT(XSL Transforma-tion,可扩展样式表转换)、Xpath路径语言、Xlink链接语言以及Xpointer语言。应用程序可以通过SAX以及DOM等标准接口来访问XML文档。已有的XML查询语言包括XML—QL、X—QL以及Xquery。对于这些查询语言,研究人员进一步提出应具有更新及扩展能力,从而使XML文档成为XML数据库。
XML在开发语义网络的过程中将起重要作用。然而,它只能通过XML句法结构来表示某些语义特性,却不能够完全解决语义网络的需求。XML查询需要通过DTD(Document Type Definition,文档类型定义)来获取句法结构。虽然可以从含有文档类型的文本结构中派生语义,但每个元素(XML标记)的语义并没有定义,而且其解释完全依赖于应用程序内含代码。要开发具有语义的网络,需要以机器可识别的结构来描述Web上的资源内容与关系,并使用语义定义的词汇与语法结构。
语义网络的结构有以下三层 1.元数据层。该层数据模型只包含资源及属性概念。目前,RDF(Resource Description Framework,资源定义框架)被认为是元数据层最流行的数据类型。2.模式层。在这一层引入网络本体语言来定义概念等级描述与属性。RDFS(RDF Schema,资源定义框架模式)是模式层语言的候选。3.逻辑层。在这一层引入功能更强大的网络本体语言。这些语言提供一整套丰富的模型机理,从而可以映射到描述逻辑(Description Log·ics)。
语义网络的功效
语义网络的功效是明显的,主要体现在以下几个方面
1.在Web服务方面
语义网络中最重要的网络资源通常称为是Web服务。由于Web服务语义的描述通过注册进行,智能移动代理可能从一个服务机构转移到另一个服务机构,以发现用户指定的Web服务。还有一些以协助代理形式浏览Web,它可以辅助浏览基于用户文档的WWW,并基于浏览历史学习用户文档。这一理念也用于Web服务发现。例如,服务器可对不同用户提供不同价值的Web服务,代理可以基于用户文档发现Web服务。
目前,大多数Web服务还需要人工干预。通常,在用户与Web服务之间需要多次相互作用以完成Web服务的执行。自动Web服务请求就是让代理替代用户操作,用户只需告诉代理需求即可,代理通过计算机APl输入数据与Web服务联系。
目前开发了许多用于电子商务的标准及Web服务。例如,Microsoft、IBM以及Ariba提出的UDDI(Universal Description,Discovery and Integration,统一描述发现和集成协议)适用于联机出版;Microsoft与IBM提出的WSDL(Web Service Definition Language,Web服务描述语言)作为XML语言来描述使用UD-DI数据库的Web服务接口,DAML服务联盟提出DAML—S(Darpa Agent Markup Language—Service,DARPA代理标记语言服务)本体来描述Web服务。还有许多用于Web服务请求的通讯协议,如,远程过程调用(Remote Procedure Call)是一个客户/服务器结构,它允许客户端应用程序以调用方式访问远程系统的服务器。CGI(Common Gateway Interface,公共网关接口)机理是一个用于与信息服务(如HTTP服务)相连的外部网关程序标准。CORBA(CommonObject Request Broker Architectrue,公共对象请求代理体系结构)使用注册来存贮分布对象的接口,从而可以使客户在不需要知道编程语言、操作系统的情况下让服务器提供远程服务。SOAP(Simple ObjectAccess Protocol,简单对象访问协议)是一个在Web分布环境下进行信息交流的协议,它可以用来描述信息的内容及处理方式、定义独立于应用程序的数据类型、提供远程调用及响应。SOAP还可以与其他各种协议结合使用,包括与HTYP的绑定。
2.在网络搜索引擎方面
搜索引擎是Web上最有用资源,目前有两种类型的搜索引擎
(1)大规模基于机器人的搜索引擎。这类系统依靠机器人来搜索Web页面,并将相关页面存贮在一个数据库中。这种机理的优点是可以提高查全率,因为机器人可以检索Web上的几乎所有页面。而其不足之处是查准率较低。
(2)小规模基于检索的搜索引擎。它是基于关键词描述来建立等级类目。检索者浏览Web页面,并与相关类目关联。其优点是查准率提高了,而其缺点是查全率可能很低,因为检索者不可能浏览Web上的每个相关页面。
以上两种类型的搜索引擎都是基于关键词的,因此易于出现一词多义以及同义词现象,从而影响查询的查全率与查准率。通过词干算法(即获得前缀)可以解决同义词问题,而且使用主干方法可以找到同根。然而,这些方法易于产生以下错误,不同意义的词可能变为相同的根,例如general,generous,generatmn,generation以及geneaic可能产生相同的根;具有相同意义的不同单词却不能产生相同的根,例如automobile和car。这对于大规模基于机器人的搜索引擎来说困难更大。一些系统基于使用特殊HTML标记注释Web页面的方法来表示语义从而克服了这些问题,如SHOE(Simple HTML Ontology Ex-tensions)系统和GDA系统。然而,这些系统只可以处理使用HTML标记注释的页面,而且目前还没有一个可接受的通用HTML标记集。
而语义网络是使用本体来描述各种网络资源的,因此,Web上的知识将以结构化、逻辑以及语义的方式表述,这将改变代理浏览、获取以及利用Web信息的方式。一方面,语义网络是一个分布式知识库的网络,代理在本体向导的指引下可以获取知识;一方面,语义网络是一个本体描述的Web服务集合。有了语义网络的建立与发展,计算机就能够以语义形式访问各种网络资源。可以建立基于语义的网络搜索引擎,并以本体方式执行查询。来自本体的向导将提高检索的查全率和查准率。例如,可以向语义搜索引擎提出“查找评论《语义网络导论》的书籍”的查询,搜索引擎检索并返回有关该书的评论,而对于含有“评论”或“语义网络导论”关键词的页面不予理会。再如提出”chair”的查询,有了家具本体向导,只返回家具椅子(chair)相关的页面;有了个人本体向导,则只返回组织负责人(chair)的页面。相比之下,基于关键词的搜索引擎则返回含有关键词“chair”的所有网站,包括家具中的椅子(chair)以及负责人(chair)。面临的挑战
本体方法的主要作用是使知识能够共享、重用,因此典型本体系统支持开放存储与组织、标识与描述。开放存储与组织强调在系统中如何存储与组织以便于本体的存取与管理。由于本体发展时间漫长,描述是一个重要的特征,描述机理可使不同本体相互协调。另外,如何扩展与更新现有本体方法也是一个重要问题。这包括在本体系统中本体的检索、编辑与推理。
集成与相互操作能力是任何开发系统所面临的问题。对于语义网络尤其是这样,因为语义网络是一个Internet层规模性开放系统。
数字签名将在验证中起重要作用。资源必须附带陈述以便代理核查信息来源是否真实。每个人都应为其自己定义一个信任模型,这就是,语义网络上的每个资源有多大的信任度。由于为资源定义信任范围是不现实的,需要一个机理为每个资源推断信任度。其中一个方法是“网络信任”,即,当某人信任A资源,他也信任A资源所信任的所有资源。目前,信任理念还没有形成,而且语义网络推理引擎方面的理论还在发展中。然而,这些技术是非常重要的,而且是建立现实商务应用的基础。
XML(Extensible Markup Language,可扩展标记语言)独有的特性带来了语义网络的发展。目前,常用的XML技术与工具包括SAX(Simple API for XML,简单应用程序接口)、DOM(Document Object Model,文档对象模型)、XSL(Extensible Stylesheet Language,可扩展样式表语言)、XSLT(XSL Transforma-tion,可扩展样式表转换)、Xpath路径语言、Xlink链接语言以及Xpointer语言。应用程序可以通过SAX以及DOM等标准接口来访问XML文档。已有的XML查询语言包括XML—QL、X—QL以及Xquery。对于这些查询语言,研究人员进一步提出应具有更新及扩展能力,从而使XML文档成为XML数据库。
XML在开发语义网络的过程中将起重要作用。然而,它只能通过XML句法结构来表示某些语义特性,却不能够完全解决语义网络的需求。XML查询需要通过DTD(Document Type Definition,文档类型定义)来获取句法结构。虽然可以从含有文档类型的文本结构中派生语义,但每个元素(XML标记)的语义并没有定义,而且其解释完全依赖于应用程序内含代码。要开发具有语义的网络,需要以机器可识别的结构来描述Web上的资源内容与关系,并使用语义定义的词汇与语法结构。
语义网络的结构有以下三层 1.元数据层。该层数据模型只包含资源及属性概念。目前,RDF(Resource Description Framework,资源定义框架)被认为是元数据层最流行的数据类型。2.模式层。在这一层引入网络本体语言来定义概念等级描述与属性。RDFS(RDF Schema,资源定义框架模式)是模式层语言的候选。3.逻辑层。在这一层引入功能更强大的网络本体语言。这些语言提供一整套丰富的模型机理,从而可以映射到描述逻辑(Description Log·ics)。
语义网络的功效
语义网络的功效是明显的,主要体现在以下几个方面
1.在Web服务方面
语义网络中最重要的网络资源通常称为是Web服务。由于Web服务语义的描述通过注册进行,智能移动代理可能从一个服务机构转移到另一个服务机构,以发现用户指定的Web服务。还有一些以协助代理形式浏览Web,它可以辅助浏览基于用户文档的WWW,并基于浏览历史学习用户文档。这一理念也用于Web服务发现。例如,服务器可对不同用户提供不同价值的Web服务,代理可以基于用户文档发现Web服务。
目前,大多数Web服务还需要人工干预。通常,在用户与Web服务之间需要多次相互作用以完成Web服务的执行。自动Web服务请求就是让代理替代用户操作,用户只需告诉代理需求即可,代理通过计算机APl输入数据与Web服务联系。
目前开发了许多用于电子商务的标准及Web服务。例如,Microsoft、IBM以及Ariba提出的UDDI(Universal Description,Discovery and Integration,统一描述发现和集成协议)适用于联机出版;Microsoft与IBM提出的WSDL(Web Service Definition Language,Web服务描述语言)作为XML语言来描述使用UD-DI数据库的Web服务接口,DAML服务联盟提出DAML—S(Darpa Agent Markup Language—Service,DARPA代理标记语言服务)本体来描述Web服务。还有许多用于Web服务请求的通讯协议,如,远程过程调用(Remote Procedure Call)是一个客户/服务器结构,它允许客户端应用程序以调用方式访问远程系统的服务器。CGI(Common Gateway Interface,公共网关接口)机理是一个用于与信息服务(如HTTP服务)相连的外部网关程序标准。CORBA(CommonObject Request Broker Architectrue,公共对象请求代理体系结构)使用注册来存贮分布对象的接口,从而可以使客户在不需要知道编程语言、操作系统的情况下让服务器提供远程服务。SOAP(Simple ObjectAccess Protocol,简单对象访问协议)是一个在Web分布环境下进行信息交流的协议,它可以用来描述信息的内容及处理方式、定义独立于应用程序的数据类型、提供远程调用及响应。SOAP还可以与其他各种协议结合使用,包括与HTYP的绑定。
2.在网络搜索引擎方面
搜索引擎是Web上最有用资源,目前有两种类型的搜索引擎
(1)大规模基于机器人的搜索引擎。这类系统依靠机器人来搜索Web页面,并将相关页面存贮在一个数据库中。这种机理的优点是可以提高查全率,因为机器人可以检索Web上的几乎所有页面。而其不足之处是查准率较低。
(2)小规模基于检索的搜索引擎。它是基于关键词描述来建立等级类目。检索者浏览Web页面,并与相关类目关联。其优点是查准率提高了,而其缺点是查全率可能很低,因为检索者不可能浏览Web上的每个相关页面。
以上两种类型的搜索引擎都是基于关键词的,因此易于出现一词多义以及同义词现象,从而影响查询的查全率与查准率。通过词干算法(即获得前缀)可以解决同义词问题,而且使用主干方法可以找到同根。然而,这些方法易于产生以下错误,不同意义的词可能变为相同的根,例如general,generous,generatmn,generation以及geneaic可能产生相同的根;具有相同意义的不同单词却不能产生相同的根,例如automobile和car。这对于大规模基于机器人的搜索引擎来说困难更大。一些系统基于使用特殊HTML标记注释Web页面的方法来表示语义从而克服了这些问题,如SHOE(Simple HTML Ontology Ex-tensions)系统和GDA系统。然而,这些系统只可以处理使用HTML标记注释的页面,而且目前还没有一个可接受的通用HTML标记集。
而语义网络是使用本体来描述各种网络资源的,因此,Web上的知识将以结构化、逻辑以及语义的方式表述,这将改变代理浏览、获取以及利用Web信息的方式。一方面,语义网络是一个分布式知识库的网络,代理在本体向导的指引下可以获取知识;一方面,语义网络是一个本体描述的Web服务集合。有了语义网络的建立与发展,计算机就能够以语义形式访问各种网络资源。可以建立基于语义的网络搜索引擎,并以本体方式执行查询。来自本体的向导将提高检索的查全率和查准率。例如,可以向语义搜索引擎提出“查找评论《语义网络导论》的书籍”的查询,搜索引擎检索并返回有关该书的评论,而对于含有“评论”或“语义网络导论”关键词的页面不予理会。再如提出”chair”的查询,有了家具本体向导,只返回家具椅子(chair)相关的页面;有了个人本体向导,则只返回组织负责人(chair)的页面。相比之下,基于关键词的搜索引擎则返回含有关键词“chair”的所有网站,包括家具中的椅子(chair)以及负责人(chair)。面临的挑战
本体方法的主要作用是使知识能够共享、重用,因此典型本体系统支持开放存储与组织、标识与描述。开放存储与组织强调在系统中如何存储与组织以便于本体的存取与管理。由于本体发展时间漫长,描述是一个重要的特征,描述机理可使不同本体相互协调。另外,如何扩展与更新现有本体方法也是一个重要问题。这包括在本体系统中本体的检索、编辑与推理。
集成与相互操作能力是任何开发系统所面临的问题。对于语义网络尤其是这样,因为语义网络是一个Internet层规模性开放系统。
数字签名将在验证中起重要作用。资源必须附带陈述以便代理核查信息来源是否真实。每个人都应为其自己定义一个信任模型,这就是,语义网络上的每个资源有多大的信任度。由于为资源定义信任范围是不现实的,需要一个机理为每个资源推断信任度。其中一个方法是“网络信任”,即,当某人信任A资源,他也信任A资源所信任的所有资源。目前,信任理念还没有形成,而且语义网络推理引擎方面的理论还在发展中。然而,这些技术是非常重要的,而且是建立现实商务应用的基础。