论文部分内容阅读
随着因特网的不断发展,Web的信息量也与日俱增。面对如此海量的信息,如何保证信息的全面,及时和准确性成为搜索引擎领域所研究的主要课题。虽然通用搜索引擎在量上有很大的优势,但是传统的信息检索技术以关键字匹配为主,缺乏语义推理能力,容易造成信息的误检、漏检,导致在质的方面确差强人意,而当今用户的查询却正向“专、精、深”的方向发展,因此如何提高Web信息的检索质量成为目前信息检索研究领域的重要课题。垂直搜索是给某一特定领域提供有一定价值的信息和相关服务的,而本体正是对领域知识概念、关系、属性的抽象和描述。因此,本体与搜索引擎结合,成为研究垂直搜索引擎的重要手段。于是如何构建合理的领域本体,如何将本体理论与垂直搜索技术相结合就成为了研究的焦点。本文首先介绍搜索引擎的基本概念和原理,重点分析了垂直搜索引擎的关键技术,包括专业网络蜘蛛、结构化信息抽取以及语义标注;接着介绍了本体的相关理论及概念,阐述了本体与垂直搜索引擎相结合的意义和必要性,并结合实例进行了可行性论证。本文所完成的工作主要有:以Protege作为本体编辑工具,OWL作为本体描述语言建立了计算机配件领域本体;研究了基于本体的垂直搜索的关键技术,结合网页相关性算法,提出了一种基于本体的专业网络蜘蛛系统框架:运用计算机配件领域本体对预处理后网页文本信息文档进行本体语义标注,并以此为基础,对文档内容进行结构化信息抽取;接着以计算机配件领域本体为基础对用户查询进行本体语义扩展,着重探讨了不在本体体系当中的普通单词查询的解决方法。最后给出了本体与垂直搜索引擎相结合的系统实例,开发了基于计算机配件领域本体的垂直检索的实验系统,给出了本体在垂直搜索关键技术中的应用方法以及实现过程,通过系统运行和实验数据分析,得出实验系统比传统的基于关键字的查询方法具有更高的查全率和查准率,因此研究基于本体的垂直检索具有很强的理论和实际意义。