加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫

发布时间:2018-07-25 05:57:47 所属栏目:编程 来源:视觉中国 钛媒体注:本文文由公众号浅黑科技(ID:qianh
导读:原标题:《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫 图片来源:视觉中国 钛媒体注:本文文由公众号浅黑科技(ID:qianheikeji)授权转载,作者:史中。 来不及了,快上车。上车前,中哥先问你三个问题: 你以为你在大众点评上找到的馆子,真的

尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。所以黄赌毒网站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们“降权”处理。不过御风算了算,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。

这也就解释了为什么有时我们“众里寻他千百度”,蓦然回首,却看到“有人正在脱裤裤”了。

最后再说说政府部门

你看这张图,全是爬虫针对政府信息的爬取。

《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫

第二名,北京市预约挂号同一平台。这个锅,板上钉钉要号贩子来背。

其他的,例如法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?因为有些信息,是只有政府部门才掌握的。

比如,谁被告过,哪家公司曾经被行政处罚,哪个人曾经进入了失信名单。这些信息综合起来,可以用来做一个公司或者个人的信誉记录。

我试着打开了一下排名第四位的“信用中国”。

《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫

在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况。拉到最底下一看,这个网站果然是是根红苗正的。

如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。

如此,信用中国被爬,也就很容易解释了。

不过刚才那张表格里,排名第七的是四川住建厅。这又是什么骚操作?

根据御风的推测,这很可能是某些公司提供的一项“特殊服务”:

他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了。

爬虫战争

说了这么多,我猜你会有几个疑问。

  • 问题 1、爬虫搞出这么多姿势,它究竟是不是违法呢?

这个问题还真的不简单。

我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。

于是我又继续搜索,发现了几条司法解释:

未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。

但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)

但是,对企业来说,爬虫却着实伤害了自己。有句话说:“主救自救者。”他们得组织“民兵”自己保卫自己。

  • 问题 2、爬虫战争谁会赢?

爬虫和被爬企业越来越势不两立。

说白了,他们的对抗都是在阻挡对方的财路。所以下手都挺重。

企业经典的对抗方式,大概有几种:图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等......

除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。

但是,爬虫的请求,和真人的请求真的太像了。

我觉得,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。

在我看来,这场对抗爬虫的常规战眼看就要升级为“智能战”,而且战线会向云端转移。

比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了。还有很多其他的云安全厂商,也开始主推反爬虫的技术。

不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。

《中国焦虑图鉴》

最后,中哥帮你搞到了一张秘密表格。

这是被监测到的受爬虫侵扰最多的 Top50。(采样数据,仅供参考)

《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫

这张表里,除了google、Youtube、ask、亚洲航空这四家企业之外,应该全是中国企业(或机关)。正是从这些名字背后,我体会到了很多人的辛酸和焦虑。

爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方,往往是我们不忍提及的隐痛。

你看,排名第1的“中国铁路客户服务中心”

无数像幺哥一样的游子,他们奋斗在一个远离家乡的城市,为了让家人有更幸福的生活。正是他们难以买到过年回家车票的事实,才把 12306 推上了爬虫榜的第一名。

你看,排名第8的“最高人民法院公告查询”

在中国,我们的信用体系还很不完善,骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。

你看,排名第15的“京市预约挂号统一平台”

我们的医疗改革在进行,但像你我一样的普通人仍然看病难,看病贵。又便宜又好的医疗资源需要争夺,这才有了“一号难求”的现实,才有了黄牛用爬虫拼命抢号的现象。

自不用说那些神坑的虚假广告,冲榜刷量,背后都有爬虫的影子。

有人说技术有罪,有人说技术无罪。

我不知道技术是否有罪,我只知道,这些盘踞在我们广袤版图上数以十亿计的爬虫,无时无刻不在提醒着我们:

抱怨不会让这个世界变得更好,你想生活在一个怎样的世界,就要用自己的双手去创造它。

【本文来源于本文来源于浅黑科技(ID:qianheikeji),作者:史中】

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

《中国焦虑图鉴》:你每天使用的App上都布满了网络爬虫

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读