加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取4027条脉脉职言,解读互联网人的苦与难!

发布时间:2019-01-30 07:47:15 所属栏目:教程 来源:量化小白H
导读:脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析,之前存了一堆这方面的文章,今天一看全都404了。 爬虫 仍然使用python编程,对爬虫没兴趣的可以直接跳过看下部分,不影

爬下来之后,删掉超过一个字的评论,按词频确定大小,做词云图如下

Python爬取4027条脉脉职言,解读互联网人的苦与难!

用两个字概括你现在的工作|用2个字总结你的工作

2,5是一样的,爬下来合并到一起后分析。代码不再重复,实际上用上面那段代码,找到json地址后替换,任何一个话题下的评论都可以全爬到,删掉不是2个字的评论后根据词频作图。

Python爬取4027条脉脉职言,解读互联网人的苦与难!

使用SnowNLP对评论进行情感分析,最终4027条中,积极的有2196条,消极的有1831条。

积极

Python爬取4027条脉脉职言,解读互联网人的苦与难!

消极

Python爬取4027条脉脉职言,解读互联网人的苦与难!

模型对大部分评论的情感倾向判断的比较准确,小部分有误。

最后对所有评论提取关键词做词云收尾。

Python爬取4027条脉脉职言,解读互联网人的苦与难!

【编辑推荐】

  1. 热点 | 我用Python告诉老大爷“啥是佩奇”
  2. 针对WebView测试的五种Python框架
  3. 从C++转Python:要改变你的思维方式
  4. 分享几款由“Python”语言编写的“有趣、恶搞、好玩”的程序代码
  5. Pelican入门:一个Python静态网站生成器
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读