Python如何解决403 Forbidden错误

更新：2020/3/17 17:03:56 浏览：1195次

　　在爬虫工作的过程中，我们经常会遇到一些问题，比如 407 authentication required，这个是授权问题，还有HTTP Error 403: Forbidden，这个可能是被反爬虫识别，被目标服务器拒绝请求。

　　那么403 Forbidden问题该怎么解决呢？这是很多朋友经常遇到的问题，如何做才不会被反爬虫识别呢？

　　一、使用高匿代理IP。代理IP按匿名程度可以分为透明代理、普匿代理、高匿代理。透明代理会透露本机IP，普匿代理会透露使用了代理IP，这两者都会暴露使用了代理IP，很容易识别，高匿代理则不会暴露，比如蝶鸟IP代理的动态高质量产品。

　　二、尽量使用干净的代理IP。如果有很多其他人和你使用一样的IP同时访问一样的网站，那么也很容易被识别，当这些IP访问频率过快或者访问测试达到了目标网站的阈值时，则会被封IP。这时候，可以在网上寻找代理IP的供应商。

　　三、伪装成浏览器。除了上面两个原因外，还有可能是代码里没设置User-Agent导致的。对有些 header 要特别留意，Server 端会针对这些 header 做检查。

　　User-Agent 有些 Server或Proxy会检查该值，用来判断是否是浏览器发起的Request。
　　Content-Type 在使用REST接口时，Server会检查该值，用来确定HTTP Body中的内容该怎样解析。

　　这时可以通过修改http包中的header来实现，代码片段如下：

　　import urllib2

　　headers = {

　　'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

　　}

　　request = urllib2.Request(

　　 url = 'http://********'

　　headers = headers

　　)

　　print urllib2.urlopen(request).read()