《中国焦虑图鉴》：你每天使用的App上都布满了网络爬虫

发布时间：2018-07-25 05:57:47 所属栏目：编程来源：视觉中国钛媒体注：本文文由公众号浅黑科技（ID：qianh

导读：原标题：《中国焦虑图鉴》：你每天使用的App上都布满了网络爬虫图片来源：视觉中国钛媒体注：本文文由公众号浅黑科技（ID：qianheikeji）授权转载，作者：史中。来不及了，快上车。上车前，中哥先问你三个问题：你以为你在大众点评上找到的馆子，真的

尤其是很多赌博、黄色网站，搜索引擎如果敢收广告费让他们排到前面，那就离倒闭不远了。所以黄赌毒网站只能利用黑色 SEO，强行把自己刷到前面。直到被搜索引擎发现，赶紧对它们“降权”处理。不过御风算了算，这些黄色网站如果能把自己刷到前几位一两个小时，赚来的钱就远远超过 SEO 的费用。

这也就解释了为什么有时我们“众里寻他千百度”，蓦然回首，却看到“有人正在脱裤裤”了。

最后再说说政府部门

你看这张图，全是爬虫针对政府信息的爬取。

《中国焦虑图鉴》：你每天使用的App上都布满了网络爬虫

第二名，北京市预约挂号同一平台。这个锅，板上钉钉要号贩子来背。

其他的，例如法院公告、信用中国、信用安徽，为什么爬虫要爬这些信息呢？因为有些信息，是只有政府部门才掌握的。

比如，谁被告过，哪家公司曾经被行政处罚，哪个人曾经进入了失信名单。这些信息综合起来，可以用来做一个公司或者个人的信誉记录。

我试着打开了一下排名第四位的“信用中国”。

《中国焦虑图鉴》：你每天使用的App上都布满了网络爬虫

在这个平台上，你只要输入一个身份证号或者手机号，就可以查询到一个人的信用情况。拉到最底下一看，这个网站果然是是根红苗正的。

如果一家公司要对外做信誉库的服务，它必须先把信用中国的信息下载到自己的库里，然后才能和其他数据进行综合运算。

如此，信用中国被爬，也就很容易解释了。

不过刚才那张表格里，排名第七的是四川住建厅。这又是什么骚操作？

根据御风的推测，这很可能是某些公司提供的一项“特殊服务”：

他们把四川省各个地区的招标情况汇总起来，然后实时提醒那些房地产公司：别睡了，起来投标了。

爬虫战争

说了这么多，我猜你会有几个疑问。

问题 1、爬虫搞出这么多姿势，它究竟是不是违法呢？

这个问题还真的不简单。

我打开中国网安第一大法《网络安全法》仔细看了半小时，在里面没有发现“爬取网络公开信息被认定为违法”的条款。

于是我又继续搜索，发现了几条司法解释：

未经授权爬取用户手机通讯录超过50条记录；未经授权抓取用户淘宝交易记录超过500条；未经授权读取用户运营商网站通话记录超过500条；未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。

但是仔细看看，如果我只是用机器代替了人的手点击鼠标敲击键盘，接触的都是公开信息，并不触犯这些司法解释。（这只是我简单查询后的结果，不代表任何官方意见）

但是，对企业来说，爬虫却着实伤害了自己。有句话说：“主救自救者。”他们得组织“民兵”自己保卫自己。

问题 2、爬虫战争谁会赢？

爬虫和被爬企业越来越势不两立。

说白了，他们的对抗都是在阻挡对方的财路。所以下手都挺重。

企业经典的对抗方式，大概有几种：图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算，耗费爬虫的程序资源等等......

除了刚才这些小模块，企业还可以通过 WAF（Web 应用防火墙）来防护，WAF 的功能就是通过设置一些规则，拦截掉那些不符合规则的请求。

但是，爬虫的请求，和真人的请求真的太像了。

我觉得，对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别，而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。

在我看来，这场对抗爬虫的常规战眼看就要升级为“智能战”，而且战线会向云端转移。

比如腾讯云的 WAF，听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了。还有很多其他的云安全厂商，也开始主推反爬虫的技术。

不过，就像人类目前难以消灭癌症一样，企业也难以完全消灭爬虫。但是我相信，在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步，都需要安全研究员付出艰辛的努力。

《中国焦虑图鉴》

最后，中哥帮你搞到了一张秘密表格。

这是被监测到的受爬虫侵扰最多的 Top50。（采样数据，仅供参考）

这张表里，除了google、Youtube、ask、亚洲航空这四家企业之外，应该全是中国企业（或机关）。正是从这些名字背后，我体会到了很多人的辛酸和焦虑。

爬虫是趋利的，它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方，往往是我们不忍提及的隐痛。

你看，排名第1的“中国铁路客户服务中心”

无数像幺哥一样的游子，他们奋斗在一个远离家乡的城市，为了让家人有更幸福的生活。正是他们难以买到过年回家车票的事实，才把 12306 推上了爬虫榜的第一名。

你看，排名第8的“最高人民法院公告查询”

在中国，我们的信用体系还很不完善，骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告，形成民间信用记录的服务。

你看，排名第15的“京市预约挂号统一平台”

我们的医疗改革在进行，但像你我一样的普通人仍然看病难，看病贵。又便宜又好的医疗资源需要争夺，这才有了“一号难求”的现实，才有了黄牛用爬虫拼命抢号的现象。

自不用说那些神坑的虚假广告，冲榜刷量，背后都有爬虫的影子。

有人说技术有罪，有人说技术无罪。

我不知道技术是否有罪，我只知道，这些盘踞在我们广袤版图上数以十亿计的爬虫，无时无刻不在提醒着我们：

抱怨不会让这个世界变得更好，你想生活在一个怎样的世界，就要用自己的双手去创造它。

【本文来源于本文来源于浅黑科技（ID：qianheikeji），作者：史中】

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页

把not in 更换成not e	mydumper工具运用介绍
别花冤枉钱买专栏了！	Mysql索引类型创建错误