论文部分内容阅读
随着Internet和Web技术的发展,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息。通过Internet和Web技术,人们可以很容易地访问互联网上各种各样的数据。但由于Web信息是无结构化的,没有明确的语义,因此用户获得有用的信息越来越困难。目前的搜索引擎技术是基于关键词简单匹配,己经不能满足人们快速、准确得到信息的要求。为了能有效的利用Web上的信息资源,使Web能真正成为人们随时可用的知识库,人们提出了Web信息集成的概念,其目标是为用户提供完全透明的、智能的、统一的信息访问接口。本体最初用来描述事物的本质,后来随着人工智能的发展,本体被赋予新的定义。在Web信息集成方面,本体常用于将某个或多个特定领域的概念和术语规范化,为异构Web数据源集成提供统一的概念和术语标准,减少了因为Web数据源采用不同命名造成的语义冲突。在一定程度上解决语义异构的问题,进一步提高了系统的精确性,为用户提供更有价值的信息。本文作为广西科学研究与技术开发计划项目(编号:桂科攻0719001-11)的组成部分,以制造业中汽车领域Web信息为例,研发基于本体的汽车领域Web信息集成平台,全文以基于本体的Web信息集成这条线索进行研究,研究领域本体的构建、基于语义的Web信息抽取和查询。本文的主要工作和创新点如下:首先,本文使用OWL DL本体语言建立一个汽车资讯领域的本体模型。在分析Web网站的特征之后,根据网页可转换为DOM树结构的特点,利用汽车资讯本体关键词,进行页面区域定位,提取页面正文内容。其次,对提取的页面正文内容进行语义抽取,在传统的向量空间模型基础上结合领域本体,根据本体的层次结构特征对概念特征向量赋权重值,生成基于本体的概念特征向量,半自动化地生成本体知识库实例。利用本体,使概念特征向量具有更明确的语义,同时降低了向量模型维数,减少了计算的复杂度;将无结构化网页的文本变成具有语义的、机器可理解的结构化信息。然后,在已建立领域本体的基础上,本文设计了基于本体的查询推理算法,该算法以OWL本体为基础,利用描述逻辑的推理能力,对查询关键词进行概念扩展,再进行实例匹配。为把最符合的结果优先显示给用户,本文对扩展概念赋权重,设计一个基于本体的相关度排序算法,该算法比传统的向量空间模型相关度的算法效果要好,且效率要高。最后,根据研究的关键技术,本文实现了一个基于本体的汽车资讯领域Web信息集成平台原型。该平台使用了描述逻辑推理机提供的推理服务,实现了基于语义的Web信息抽取和查询推理,并对系统进行测试分析,给出了实验结果,表明这种方法的技术可行性,具有实际应用前景。