基于本体面向政府采购的知识管理研究

来源 :计算机时代 | 被引量 : 0次 | 上传用户:bird2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:目前,各级政府为了有效地发挥政府采购的功能,纷纷建立起了面向政府采购的平台或网站,但是这些平台并不能科学地将海量的信息转化为知识,进而完善政府采购的功能。为了克服现有的缺陷,文章结合本体理论知识,提出了基于本体面向政府采购行为的知识管理模型,使政府采购能更好地满足公共需要。
  关键词:本体;政府采购;知识管理;语义
  
  0 引言
  
  与传统的方式相比,目前政府采购主要通过网站向社会发布所需购买的产品及服务信息,这使得政府采购在工作方式和工作效率上有了很大的改进。但是这些网站之间的信息无法有效共享,在搜索信息时,需要人工干预才能做出判断。如何形成政府采购领域的知识库,在Internet海量信息中进行信息的搜索、组织和管理,是一项迫切的需求。就目前而言,要从Internet的非结构化信息中获取知识,并创新知识,还存在难度。本文提出的基于本体的知识管理模型,将定义政府采购领域内概念或术语之间的关系,建立本体库,使知识的共享和重用成为可能,最终使政府采购行为更具科学性,并提高政府对公众的服务能力。
  
  1 相关研究
  
  


  在知识管理中引入本体的概念,使分布式的、异构的平台之间知识共享,是目前研究的热点,但是将基于本体的知识管理与政府采购相结合,目前开展的研究还相对较少。
  针对工作流系统应用在企业知识管理时面临的流程数据难以整合、文件内容词汇关系的不明确及存取控制不便等问题,武凌等提出了一种基于本体的工作流知识管理系统架构,并介绍了其设计及实现机制。该系统以XML作为流程文件交换与存储格式,利用本体论的方法将不同知识领域包含的概念及关联特性整合到工作流程中,并设计了基于角色继承的授权管理机制进行精确的文件存取控制。王英林等提出一种基于本体、知识处理模板与基于实例推理方法的可重构知识管理系统框架。在该框架中,知识被视为本体概念的对象实例。倪益华等研究了知识管理实施中的关键技术——知识的分类、知识的表示、企业知识的构建、知识的共享和集成,采用Protege2000设计了制造企业的知识管理平台,为制造企业实现基于本体的知识管理平台提供了一种新的理论和方法。吴沛,粟湘等分析了知识管理中的异构特点,描述了本体在知识管理中的相关技术,结合某物流企业的实例提出了知识管理中基于本体集成的框架。
  本文将借鉴以上的这些研究成果,并结合政府采购理论,提出面向政府采购的知识管理模型。
  
  2 基于本体面向政府采购行为的知识管理模型
  
  


  为了解决目前政府采购网络资源无法有效共享、计算机无法智能识别的问题,本文结合语义Web、本体建模等关键技术,提出了基于本体面向政府采购行为的知识管理模型。该模型主要有五部分组成,即:网络爬虫、语义标注、知识库、本体库及语义检索。主要流程为:首先通过网络爬虫从Internet上的政府采购网站获取相关的资源或信息,然后由语义标注模块结合本体库对资源或信息进行语义标注,形成知识库。网络用户则可通过语义检索模块结合本体库从知识库中读取相关信息。
  以下我们将详细描述各模块的功能及实现原理。
  网络爬虫的功能是从Internet上获取和政府采购相关的网页,并从这些网页中抽取信息。互联网的发展日新月异,而与政府采购相关的信息也是不计其数,如果采用手工的方式采集网络信息将是一项十分艰巨的任务,采用网络爬虫的最大好处就在于积极、主动地、根据既定目标获取网络资源。如果自行开发一套网络爬虫,不但成本高,而且效果未必好。本文采用的是一个开源的网络爬虫系统Heritrix。它最大的优点是开源,我们可以根据特定的需要进行代码修改,并且Hefitrix在全文搜索、可扩展性方面也是相当出色的。在本系统中我们将以浙江政府采购网(http://www.zizfcg.gov.cn)为例,使用Heritrix对站点进行分析,抓取主题相关的URL,对目标网页进行一定过滤,建立索引,获取结构化数据和元数据。 本体库的创建是本文模型实现的关键。Gruber给本体进行了最准确的定义:“本体是概念模型的明确的规范说明。”从根本上说,本体描述的就是概念或者术语间的关系。通过分析,我们可以将政府采购所涉及的内容概括为三种抽象类型进行表达,即概念、概念的属性以及概念间的关系,在此基础上,叠加公理定义,形成具有复杂语义关系、支持推理的政府采购本体库。
  有了本体库和网络爬虫获取的资源后,我们就可以对资源进行语义标注,形成政府采购领域的知识库。通过语义标注,计算机将自动识别资源的含义,方便用户检索。语义标注主要是对网页抽取出所需的语义信息,并根据本体库对抽取的信息进行语义标注。以浙江政府采购网为例,我们将根据本体库中定义的概念、概念的属
  

性以及概念间的关系,对网站中提供的具体的企业、产品、政府部门及其需求之间建立关系。我们也可以把语义标注过程看作是为本体添加实例。在语义标注时,如果采用手工标注的方式,将会非常繁琐,本模型中将采用目前应用广泛的基于Wrapper数据抽取方法,利用HTML网页的结构特性,结合本体库,对资源进行自动标注。
  网络用户进行政府采购信息搜索时,语义检索模块能根据本体库分析出用户查询语句中概念的同义及上下位等语义关系,从知识库中获取所需的实例信息。
  
  3 面向政府采购行为的本体建模
  
  从上文对模型的描述中,我们可以看出该模型的实现需要用到不少关键技术,其中最为关键是对政府采购行为进行本体建模。我们将采用本体建模工具Protege创建本体。
  本文采用斯坦福大学开发的七步法对政府采购领域进行本体构建。第一步,明确我们建立的是政府采购领域的本体。应用该本体的目的是使政府采购能更高效、更科学地为公共需求服务。第二步,考查重用现有知识本体的可能性。目前面向政府采购的知识管理研究还处于起步阶段,该领域内本体库的创建还没有先例可查。第三步,列出政府采购领域知识本体的重要术语。这一步非常关键,为了使本体能全面地反映政府采购行为,需要列出一个详细的术语清单,此时不必考虑术语的重复及交叉关系。第四步,定义类及类的层次关系。我们将采用自顶向下法,从领域内的最大概念开始,逐步将其细分。在本文中,我们将这些概念归纳为四大类:企业、产品、服务、部门,再根据现实情况对这四大类细分(详见图2、图3)。第五步,定义属性。属性分为对象属性和数据属性,如企业名称、企业电话等可以定义为企业的数据属性,将需要购买定义为对象属性,该属性的主体类为部门,值域为产品和服务。通过属性的定义,我们可以明确类或概念间的同义关系、上下位关系,使得我们在查询网络资源如生产电脑的企业时,系统会将生产计算机的企业信息也返回给用户。原因是在定义本体时,我们将计算机和电脑定义为同义关系。第六步,定义属性的类型、取值范围及值的个数等。第七步,创建实例。我们可以将创建实例理解为对网络爬虫获取的网络资源进行语义标注。如对某一产品定义生产企业、相关产品、报价、哪些部门需要等语义信息。
  在使用Protege创建本体时,为了使我们创建的本体可重用性更高,我们对概念、属性都采用英文命名方式。根据上述的七步法,最终我们设计出的本体根据概念间的关系进行自动推理后,产生图2、图3所示的本体库。因文章篇幅关系,图2、图3只列出了主要的类关系。
  
  4 结束语
  
  针对政府采购行为中知识管理存在的问题,本文提出了一种基于本体面向政府采购的知识管理模型,创建了政府采购行为本体库,采用网络爬虫主动从网络上获取政府采购资源,并对其进行语义标注。用户可以通过基于语义的方式从知识库中检索到所需的网络资源。
其他文献
分布式对象系统的容错采用对象冗余来实现,它要求冗余对象各副本具有状态一致性,状态一致性需要对象行为的确定性来保证。文章提出了一种基于读写互斥的分布式互斥算法,保证
文章介绍了基于Eclipse平台的Elastos集成开发环境。这个环境除了为Elastos和Elastos Mobile的开发者提供了一个快速的开发环境(RAD,Rapid Application Development)以外,还提供
最近EPA采取的几项管理措施本刊讯:美国EPA于1994年9月以来采取了几项管理措施,现将其要点及背景情况简要介绍如下:1禁用灭菌丹(folpet)残留限量的暂时现定EPA认为制定和继续使用食物中残留限量的标准是
棉铃虫(Heliothis armigera(Hübner))是夜蛾科,烟夜蛾属的害虫,分布范围介于南纬400至北纬40°之间,中国、澳大利亚、泰国、印度等国家均有分布。它是一种杂食性害
数据库技术和信息检索技术是数据管理领域面向不同应用需求发展起来的独立的技术。目前,传统的关系型数据库管理系统,在文本处理方面不具有足够的效率和灵活性;而现有的信息检索
江阴龙灯化工有限公司是由国营江阴农药厂和加拿大龙灯公司、香港龙灯科技开发有限公司合资兴办的。该项目总投资490万美元,其中外方投资占60%,中方占40%,主要生产销售新型农
提出一种求解面向对象软件集成测试中确定类间测试顺序的贪心随机自适应搜索算法。该算法是一个多起点的迭代过程,每一次迭代由产生可行解的构造阶段和寻找局部最优解的局部搜
影响棉铃虫抗药性发展的遗传及生物学因子张友军,张文吉(北京农业大学应用化学系100094)棉铃虫(Heliothisarmigera)是种世界性的危害严重的害虫,广泛分布在南纬40°到北纬40°之间,已有澳大利亚、泰国、
一.B.t.杀虫剂的发展历史1901年日本细菌学家 S.Ishiwata 从患病的家蚕幼虫分离得到了一种芽孢杆菌,并在1905年发表的另一报告中称之为“猝倒芽孢杆菌”。但直到1911年 Berli
利用三维建模工具Multigencreator和三维模型驱动工具Multigen Vega制造光照效果,实现了对列车行驶三维视景仿真的光照效果模拟。