论文部分内容阅读
面向互联网的搜索及其相关产业在近十年取得了巨大的发展。搜索引擎和目录地址技术使得普通人与科学家和技术人员一样能够便利的获取需要的互联网信息。但是这些技术不能很好的理解网页中那些影响检索准确性的信息。本文的研究面向基于互联网的创始人伯纳斯·李(Tim Berners-Lee)提出的新一代互联网概念——语义互联网技术的语义互联网搜索引擎。其中,语义互联网是将语义学运用到目前的互联网模型中使之从人可理解的转变为机器可理解的。 本文的研究主要集中在语义web的两个基本组成部分上,即知识表示表示和信息抽取。和目前的互联网模型不同之处在于,语义互联网是基于知识的而不是基于信息的模型。基于语义的搜索引擎作为下一代搜索引擎技术能够用在语义互联网模型中。 首先,使用OWL(Web Ontology Language)-DL(Description Logic)即本体语言描述逻辑创建了一个大学本体。本体捕获这些类,属性以及在该领域内的类之间的关系。这个本体有足够的粒度和详尽以及深度以被用在和大学相关的多数领域中。以纯文本文件形式构造的本体很难被管理和查询。本文提出并实现了一种新的混合的本体表示方法,结果表明这种方法在性能、维护和存贮方面都比原来的如横向表、垂向表以及横向类的表示技术更加优越,更有发展前途。 本文的第二个贡献是网页下载和注释。语义网络爬虫作为语义搜索引擎的另一个组成部分被用来下载经过语义注释的网页数据并构造知识基础。作者提出了一种新的用于语义网络聚合器的算法,包括相关搜索和整体搜索。实验结果表明它比起目前流行的横向优先搜寻技术、关键词搜寻技术、分类搜索技术和单一搜寻技术有更高的发现率和获取率。在构造了本体之后,下一步便是构造网页注释。由于网页是只读的,用户无权编辑他人已发布的网页,所以作者在研究过程中使用已有的SMORE工具拷贝了一些大学网站的来生成试验数据。 最后,推论引擎提供了从现有的基于本体论的知识中推导出新的知识的能力。作者采用基于本体论编辑器(OilED)和FaCT技术的描述逻辑执行组接口实现这一推论引擎。另外,作者开发了一个基于语义互联网的查询创建器,使用户能通过一个直观和强大的图形用户界面来构造复杂的查询。