论文部分内容阅读
<正>网络爬虫排除标准,即Robots协议,也称为爬虫协议、机器人协议等。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的,所有内容都包含在一个文本文件(robots.txt)中,是搜索引擎访问一个网站时要查看的第一个文件。搜索引擎的原理是通过一种爬虫(spider)程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考