盘点几款C#开源爬虫软件工具

更新:2020/3/20 17:57:25 浏览:704次

  一、NWebCrawler

  NWebCrawler是一款开源,C#开发网络爬虫程序,具有以下特性:

  1、可配置:线程数、等待时间、连接超时,允许MIME类型和优先级,下载文件夹;

  2、统计信息:URL数量、总下载文件、总下载字节数、CPU利用率和可用内存;

  3、Preferential crawler:用户可以设置优先级的MIME类型;

  4、Robust: 10+ URL normalization rules, crawler trap avoiding rules。

  授权协议: GPLv2

  开发语言: C#

  操作系统: Windows

  特点:统计信息、执行过程可视化。

  二、spidernet

  spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以   gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件。

  授权协议: MIT

  开发语言: C#

  操作系统: Windows

  特点:以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据。

  三、网络矿工

  网站数据采集软件, 网络矿工采集器(原soukey采摘)。
  Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。

  授权协议: BSD

  开发语言: C# .NET

  操作系统: Windows

  特点:功能丰富,毫不逊色于商业软件。

  蝶鸟IP平台专业提供优质HTTP/HTTPS/SOCKS5代理IP服务,欢迎广大顾客朋友前来垂询。

  客服QQ:2590525183。