论文部分内容阅读
随着WWW上信息资源数量成几何级数的增多,如何在海量数据空间中快速、准确的获取用户所需Web信息成为研究的焦点。本文设计并实现了一个基于分类语义的检索系统——SECS,该系统自动构建Web信息分类体系,通过Web数据抽取机制以及Web信息分类技术,实现了检索结果的分类和层次化展示,使用户面对海量的检索结果能够快速准确的定位所需信息。 本文首先讨论了Web信息检索的相关背景及研究基础;然后提出一种新的web信息自动分类方法——通过web信息在网站结构中的位置实现自动分类;以此为基础,提出并设计了进行基于分类语义的检索系统——SECS的体系结构;实现了包括获取页面信息的高性能T-Spider程序在内的几种算法;最后通过实验,实现检索结果的分类和层次化展示。 实验采用Java以及动态Web技术实现了SECS原型系统,系统部署在Window平台上,以Tomcat5作为JSP/Serlvet容器,SQL Server为数据库服务器。