论文部分内容阅读
随着互联网技术的发展,网络的触角蔓延到人类社会的方方面面,尤其是互联网成为人们获取信息的主要工具。与此同时互联网的信息量急剧膨胀,因此,从海量的数据中检索到自己所需要的信息成为人们不得不解决的问题,搜索引擎就是在这种状况下孕育而生的。Heritrix是一个开源的网络爬虫的架构,具有高度的可扩展性。Lucene是开源的全文检索工具包。基于Heritrix和Lucene实现一个站内搜索引擎,为用户提供灵活、高效、优质的检索服务完全可行。