爬虫的分类

更新:2020/2/6 16:17:59 浏览:977次

       爬虫,全称“网络爬虫”,主要应用就是进行信息采集,不过,爬虫也是分多种类型的。根据爬虫采集信息方式的不同,我们可以将其分为三种主要类型。 

       第一种:批量型爬虫。

       批量型爬虫有明确的爬取范围,我们只需再给它设定一个明确的目标即可,当爬虫达到这个目标之后,爬取即停止。这个目标,可以是爬取的时间,也可以是爬取一定数量的网页。

       第二种:增量型爬虫

       与批量型爬虫相比,增量型爬虫没有明确的目标,因为增量型爬虫需要不断地爬取,并且要定期更新。互联网网页一直处于不断的变化当中,每天都会有无数个网页或新增、或删除、或改动,而增量型爬虫需要及时跟进这些变化,所以它需要不断地进行爬取新增的网页,更新删除或改动的网页。一般的商业搜索引擎都采用这种类型的爬虫。

       第三种:垂直型爬虫

       垂直型爬虫最大的特点就是应用在特定领域,因此它具备识别网页内容是否属于指定行业或主题的能力。爬取信息是个“巨大的工程”,如果先将网页内容爬取之后再进行筛选,则会造成资源的浪费。而垂直型爬虫在开始爬取网页时就可以动态识别该网页内容是否与主题有关,从而决定是否爬取,这样可以减少工作量,达到节省资源的目的。