论文部分内容阅读
提出构建数字图书馆主题搜索引擎的总体系统设计。利用一个预处理系统尽量选择高质量的种子站点,从而产生W eb主题定义数据;在系统控制器的协调下,各主题爬行器同步地采集爬行器所推荐的W eb资源,对下载的资源进行文本分类与主题识别;将已经下载的W eb资源按学科分类存储在W eb主题资源库中,通过全局信息库建立索引,接入通用接口进行依主题检索。依赖数字图书馆各方面特点,提出支持多线程主题爬行器的设计,并提出一种新颖的URL主题相关性剪切算法EPR,为实现数字图书馆主题搜索引擎原型提供重要的设计。基于开源