网络爬虫简介

更新:2020/5/29 17:12:39 浏览:1249次

  我们这里所介绍的爬虫,并不是生物学中的“爬虫”,而是“网络爬虫”,也就是互联网中的“爬虫”。

image.png

  我们这里所介绍的爬虫,并不是生物学中的“爬虫”,而是“网络爬虫”,也就是互联网中的“爬虫”。

  爬虫就是利用代码大量的将网页前端代码下载下来使用的一种程序,一般具有以下几种用途:

  1.商业数据分析。很多公司都会利用爬虫来进行数据整理与分析,比如某二手房交易网站上的房价走势,某二手车交易网站上的交易数据等。

  2.训练机器。机器学习需要大量的数据,而且很多机器都需要最新的训练数据,所以需要去爬取最新的数据。

  3.练习爬虫技术。很多程序员的目标就是要做一名优质的爬虫工程师,所以需要不断地练习。

  4.搜索引擎。其实搜索引擎就是利用爬虫的技术,是爬虫技术的完美实践。

  不过现在很多网站都会设置“反爬虫”措施,其实原因很简单:

  1.爬虫会在短时间内发出大量请求,占用服务器的带宽,不仅会增加企业的运维成本,还会影响正常用户的访问体验,严重的还会导致网站瘫痪。

  2.很多网站上的信息都是有价值的,谁都不希望被别人特别是竞争对手轻易的拿走,所以要反爬虫。