论文部分内容阅读
该文在深入分析网页获取、索引生成、级别系统、索引检索等搜索引擎核心技术的基础上,设计并实现了一种新的搜索引擎.该搜索引擎使用分布式技术实现网页获取模块;通过词法分析、中文分词、无用词汇删除、词干提取、索引词条选择和词典等技术建立索引数据库;该搜索引擎的级别系统使用了新的网络访问模型和级别计算模型,大大降低了搜索引擎对于计算机资源的要求.Cache技术的使用提高了用户访问效率.开放的体系结构使搜索引擎成为相关技术可靠和灵活的平台.在分析了众多优秀的网页排序算法的基础上,该文设计了新的网站级别系统.通过这个新的系统,搜索引擎能够实现更大规模的网页覆盖和更快的索引更新,从而提高更好的搜索服务.搜索引擎是建立在集群系统之上的,因此可以建立大规模的索引系统和提供高速用户访问的支持.搜索引擎的体系结构是开放的,相关技术能以它作为平台,实现灵活的集成.搜索引擎的各种配置和规则都是字典化的,它可以通过灵活的配置来实现扩展和伸缩.