论文部分内容阅读
随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用,造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理,然后供用户查询的系统。它主要包含四项核心技术,搜索器技术、中文分词技术、索引技术和检索技术。
本课题是在已有校园网搜索引擎的基础上,针对旧版本校园网搜索引擎出现的问题,对其进行的重构。旧版本的主要问题如下:搜索器方面,对网页的解析不够完备导致的搜全率过低,校园网中大量存在的异构文本(WORD文档)未能实现抓取等问题;检索器方面,检索结果的网页只能简单的输出而没有考虑排序等。因此,新版本重新设计了搜索器和检索器子系统,搜索器能够较好的完成自动对网页的抓取和解析,并实现了对异构文本的获取;检索器方面设计了新的相关度算法。算法基于TF/IDF思想,并添加了页面版式和网页层次等多种因素。在网页排序时能较准确的反映网页权值,将检索结果排序后输出;索引方面,为了适应新的网页排序算法,重新设计了索引的结构。