什么是“三月爬虫”?

什么是三月爬虫?所谓“三月爬虫”指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。

什么是“三月爬虫”?

什么是“三月爬虫”?

每年三月份左右通常会有一波爬虫高峰,和应届毕业生(本科、硕士、博士)有关,为了让论文有数据支撑,他们的爬虫简单粗暴,忽略了服务器压力,且人数不可预测。

爬虫是什么?爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了 Robots 君子协议,让互联网上的搜索与被搜索和谐相处。

原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意爬虫」开始充斥互联网。

发表评论,文明发言,遵守法律法规一律通过

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: