为什么要“反爬” - 蝶鸟IP - 优质的企业级代理IP

为什么要“反爬”

更新：2020/1/15 16:32:56 浏览：1307次

爬虫，全称“网络爬虫”，是一种程序或者脚本，可以按照一定的规则，自动抓取万维网上的信息。

人类目前已经步入大数据时代，爬虫已经成为了获取数据不可或缺的方式。做过爬虫的可能都遇到过，爬取的时候IP会突然被网站封掉，因为大多数网站都会设置“反爬虫”措施。

为什么要反爬虫？原因其实很简单。一是爬虫会在短时间内发出大量请求，占用服务器的带宽，影响正常用户的访问，严重的还会导致网站瘫痪。二是爬虫会轻易地将网站上大量的信息资源快速爬走，危害用户的隐私安全及知识产权，这是我们都无法容忍的。所以，防止“爬虫入侵”是非常必要的。

常见的反爬虫方式有以下几种：

1.根据访问频率确定是否为爬虫。

每台电脑在上网时都对应唯一的IP，当这台电脑访问网站的时候会被记录IP。如果这个IP访问的频率过快，远超过一个正常人的访问频率时，就会被认定为爬虫。

2.根据Headers确定是否为爬虫。

当我们使用浏览器访问网站时，浏览器会自动在访问请求上生成Headers，内容主要包含浏览器版本及采用的编码方式、使用的操作系统等信息，但爬虫一般不会附加这些信息，所以可以被识别出来。

3.利用动态页面反爬虫。

静态页面由HTML代码生成，页面的内容随之固定。而动态页面由脚本语言生成，有些内容需要运行一些脚本才能见到。访问动态页面时，某些内容还需要一些特定的操作才能显示，比如点击、输入验证码等，这就增加了爬取的难度，简单的爬虫就会被剔除掉了。

以上是常见的三种反爬方式。爬虫技术和反爬虫技术自诞生之日起便不断地相互进步，相互制约，“相爱相杀”直至今日。不过，想要顺利爬取，不被反爬虫技术所制约，可以选择一种非常简单有效的方式——代理IP。