论文部分内容阅读
搜索引擎是互联网上最热门的基础应用之一,搜索引擎主要有三部分组成,网页抓取(Web Crawler),建立索引(Indexing)和搜索(Searching)。该文阐述了网页爬取部分爬虫的设计,并就其中两项关键技术Gzip解压和UTF-8编码进行了详细的阐述,解决了网页爬的通用型问题,并为第三部分搜索提供直接支持。