加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

我爬取分析美团网,原来北京上海Top10美食是它们

发布时间:2018-12-16 10:33:48 所属栏目:教程 来源:Kying
导读:数据爬取三步曲之前方有坑 工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。然而最后的结果是中午晚饭都没有时间去吃了。。。情况如下 Chrome F12直接定位get请求,response的结果是json,研究下get的参数发现
副标题[/!--empirenews.page--]

数据爬取三步曲之前方有坑

工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。然而最后的结果是中午晚饭都没有时间去吃了。。。情况如下

我爬取分析美团网,原来北京上海Top10美食是它们

Chrome F12直接定位get请求,response的结果是json,研究下get的参数发现有个奇怪的参数token?!

我爬取分析美团网,原来北京上海Top10美食是它们

先不管他直接修改参数翻页请求数据!!!

我爬取分析美团网,原来北京上海Top10美食是它们

数据爬取三步曲之开始填坑

问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。悲催的是美团真的是大厂直接封杀selenuim

我爬取分析美团网,原来北京上海Top10美食是它们

数据爬取三步曲之将坑填平

又回到原点。没办法只能从token下手了经过一番查找发现一个js文件

我爬取分析美团网,,原来北京上海Top10美食是它们

嗯。。。好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。只是PyV8安装过程太心酸

废话不多说直接上代码:

我爬取分析美团网,原来北京上海Top10美食是它们

我把js文件存放到本地python直接使用PyV8直接解析执行token的js事件

我爬取分析美团网,原来北京上海Top10美食是它们

程序自动生成token,迫不及待接续解析json数据入库

我爬取分析美团网,原来北京上海Top10美食是它们

我爬取分析美团网,原来北京上海Top10美食是它们

测试完成先抓取北京和上海数据进行数据可视化

在统计师发现美团还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个

我爬取分析美团网,原来北京上海Top10美食是它们

数据可视化

北京、上海美食各类型数量占比情况

我爬取分析美团网,原来北京上海Top10美食是它们

我爬取分析美团网,原来北京上海Top10美食是它们

看以看出川湘、烧烤烤肉和西餐在两地的数量占比都是最多的。撸串、麻小果然不分南北。

我爬取分析美团网,原来北京上海Top10美食是它们

数据中有每家店的品论数量我们可以从中分析出每一类美食的总评论情况来展示受欢迎情况,因展示效果我们只展示top10

北京、上海市top10美食情况

我爬取分析美团网,原来北京上海Top10美食是它们

我爬取分析美团网,原来北京上海Top10美食是它们
北京和上海两地火锅荣登榜首哈

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读