《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫
尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。所以黄赌毒网站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们“降权”处理。不过御风算了算,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。 这也就解释了为什么有时我们“众里寻他千百度”,蓦然回首,却看到“有人正在脱裤裤”了。 最后再说说政府部门 你看这张图,全是爬虫针对政府信息的爬取。 第二名,北京市预约挂号同一平台。这个锅,板上钉钉要号贩子来背。 其他的,例如法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?因为有些信息,是只有政府部门才掌握的。 比如,谁被告过,哪家公司曾经被行政处罚,哪个人曾经进入了失信名单。这些信息综合起来,可以用来做一个公司或者个人的信誉记录。 我试着打开了一下排名第四位的“信用中国”。 在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况。拉到最底下一看,这个网站果然是是根红苗正的。 如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。 如此,信用中国被爬,也就很容易解释了。 不过刚才那张表格里,排名第七的是四川住建厅。这又是什么骚操作? 根据御风的推测,这很可能是某些公司提供的一项“特殊服务”: 他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了。 爬虫战争 说了这么多,我猜你会有几个疑问。
这个问题还真的不简单。 我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。 于是我又继续搜索,发现了几条司法解释:
|