加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

“无形”战争:爬虫技术是武器,你的手机是一名不知情的士兵

发布时间:2018-07-30 15:51:16 所属栏目:编程 来源:36氪
导读:原标题:“无形”战争:爬虫技术是武器,你的手机是一名不知情的士兵 编者按:在互联网的世界中,尤其是零售领域,一直都在经历着一场无形的数据战争,它们的武器是爬虫技术,我们每一个参与者,可能就是一名不知情的士兵。日前,《连线》杂志发表了一篇文
副标题[/!--empirenews.page--]

原标题:“无形”战争:爬虫技术是武器,你的手机是一名不知情的士兵

编者按:在互联网的世界中,尤其是零售领域,一直都在经历着一场无形的数据战争,它们的武器是爬虫技术,我们每一个参与者,可能就是一名不知情的士兵。日前,《连线》杂志发表了一篇文章,详细介绍了这一现象。

“无形”战争:爬虫技术是武器,你的手机是一名不知情的士兵

许多公司正在网上发动一场无形的数据战争。你的手机可能是一名不知情的士兵。

在零售领域,从亚马逊、沃尔玛到小型创业公司的都想知道竞争对手收取的费用是多少。基于实体店的零售商可以派人——有时被称为“神秘购物者”,假装去竞争对手的商店购物,然后记下价格。

在线上,虽然没必要把人送到其他地方,但是一个大型零售商可以销售数百万种产品。所以,让人浏览每一种商品并手动调整价格是不可行的。相反,这些公司使用软件扫描竞争对手的网站并收集价格,这一过程被称为“爬虫”(scraping)。基于此,公司可以调整自己商品的价格。

零售价格优化公司Competera的首席执行官亚历山大·高尔金(Alexandr Galkin)说,亚马逊和沃尔玛等公司有专门的内部团队负责收集数据。其他公司则会转向像它们这样的公司获取服务。Competera从网上搜集从鞋类零售商 Nine West 到工业装备商 Deelat等公司的价格数据,并使用机器学习算法帮助其客户决定不同产品的价格。

亚马逊没有回答这些行为是否会影响其他网站的问题。但是根据布拉德·斯通的著作《万货商店》(The Everything Store),亚马逊在2010年收购的Diapers.com的创始人指责亚马逊使用这种机器人来自动调整价格。

爬虫听起来可能很邪恶,但这是网络运作的一部分。谷歌和必应(Bing)抓取网页为它们的搜索引擎编制索引。学者和记者使用爬虫软件收集数据。Competera包括宏碁欧洲和松下在内的一些的客户,也会使用该公司的“品牌情报”服务来查看零售商对其产品收取的费用,以确保它们遵守定价协议。

对于零售商来说,爬虫可能是双向的,这是事情变得有趣的地方。零售商不仅想看看它们的竞争对手在做什么,也想阻止竞争对手窥探它们;零售商也希望保护知识产权,如产品照片和描述,这些照片和描述可以被其他公司爬去并重新使用。Akamai Technologies网络安全副总裁乔希·沙乌尔(Josh Shaul)说,许多公司都会部署防御措施来反爬虫。一种技术是:向真实的人显示不同的价格,而不是向机器人显示不同的价格。有些网站可能会对收集数据的机器人将价格显示为天文数字或零。

这种防御为新的犯罪创造了机会。一家名为Luminati的公司帮助客户,包括Competera,通常都会伪装机器人以避免被发现。其中有一项服务,可以使机器人看起来像是来自智能手机的访问。

Luminati的服务像是一个僵尸网络,一个运行恶意软件的计算机网络,黑客用它来发动攻击。 然而,Luminati 并没有秘密地接管设备,而是诱使设备所有者接受它的软件和另一个应用程序。 比如,从 Beka 下载MP3 Cutter的安卓用户可以选择:浏览广告或允许应用程序使用“你设备的一些资源(WiFi 和非常有限的蜂窝数据)。”如果你同意让这个应用程序使用你的资源,Luminati 会每天使用你的手机几秒钟,当它闲置的时候可以路由客户机器人的请求,并向应用制造商支付费用。 Beka 没有回应记者的置评请求。

正在进行的机器人和鼠标之战提出了一个问题:你如何检测一个机器人?这很棘手。有时候,机器人实际上会告诉它们正在访问的网站它们是机器人。当一个软件访问web服务器时,它会发送一点信息以及它对页面的请求。传统浏览器宣称自己是谷歌Chrome、微软Edge或其他浏览器。机器人可以用这个过程告诉服务器它们是机器人。但是它们也可以撒谎。检测机器人的一种技术是访问者访问网站的频率。如果访问者每分钟提出数百个请求,就很有可能是机器人。另一种常见的做法是查看访问者的互联网协议地址。例如,如果它来自云计算服务,这暗示它可能是机器人,而不是普通的互联网用户。

沙乌尔说,伪装机器人流量之类的技术使得依赖互联网地址“几乎毫无用处”。Captchas可以提供帮助,但是它们会给合法用户带来不便。 所以 Akamai 正在尝试一些不同的东西。 它不仅仅寻找机器人的共同行为,也在寻找人类的共同行为,并让这些用户通过。

当你点击手机上的一个按钮时,你的手机就会轻轻的移动。手机的加速度计和陀螺仪可以检测到这种移动,并发送到Akamai的服务器。微小移动数据的存在是证明用户是人类的线索,它的缺失则是用户可能是机器人的线索。

Luminati的首席执行官奥弗·维伦斯基(Ofer Vilenski)表示,该公司还没有提供一个能解决这个问题的方法,因为这是一个相对不常见的做法。 但是沙乌尔认为,机器人制造商们找到应对方式只是时间问题。 然后就是新一轮创新的时候了。互联网机器人军备竞赛也是如此。

好机器人和坏机器人

对于Akamai和其他试图管理机器人相关流量的公司来说,一个巨大挑战是需要允许一些但不是所有的机器人来抓取网站上的数据。如果网站完全屏蔽了机器人,它们就不会出现在搜索结果中。零售商通常也希望他们的商品和价格出现在价格比较网站上,比如谷歌购物和Price Grabber。

“真的有很多不同的场景,爬虫在互联网上被用于好的,坏的,或者在中间地带的某个地方,”沙乌尔说。 “我们在Akamai有一大批客户来帮助我们,处理机器人而不是人类访问它们网站的整体问题。”

一些公司也会爬自己的网站。安德鲁·福格(Andrew Fogg)是一家名为Import.io的公司的联合创始人,该公司提供基于网络的工具来收集数据。福格说,io的一个客户是一家大型零售商,有两个库存系统,一个用于仓库操作,一个用于电子商务网站。但是这两个系统经常不同步。因此,该公司需要爬自己的网站,来寻找差异。该公司可以更紧密地整合其数据库,至少在短期内,使用爬虫来收集数据更具成本效益。

其他的爬虫则运用于灰色地带。沙乌尔以航空业为例。旅游价格比较网站可以给航空公司带来业务,航空公司希望它们的航班显示在这些网站的搜索结果中。但是许多航空公司依靠像Amadeus IT和Sabre这样的外部公司来管理它们的预订系统。当你通过这些航空公司查询航班信息时,航空公司有时必须向订票系统付费。如果大量机器人不断巡检航空公司各个航班的座位和价格信息,这些费用就会增加。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读