什么是三月爬虫?所谓“三月爬虫”指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。

什么是“三月爬虫”?
每年三月份左右通常会有一波爬虫高峰,和应届毕业生(本科、硕士、博士)有关,为了让论文有数据支撑,他们的爬虫简单粗暴,忽略了服务器压力,且人数不可预测。
爬虫是什么?爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。
搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了 Robots 君子协议,让互联网上的搜索与被搜索和谐相处。
原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意爬虫」开始充斥互联网。