加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用R语言分析与预测员工离职

发布时间:2018-10-01 01:20:53 所属栏目:教程 来源:佚名
导读:【新品产上线啦】51CTO播客,随时随地,碎片化学习 在实验室搬砖之后,继续我们的kaggle数据分析之旅,这次数据也是答主在kaggle上选择的比较火的一份关于人力资源的数据集,关注点在于员工离职的分析和预测,依然还是从数据读取,数据预处理,EDA和机器学

satisfaction_level--满意度,last_evaluation--最后一次评估,number_project--参与项目数量,average_montly_hours--每月平均工作时间,time_spend_company--公司停留时间,Work_accident--工作事故次数,left--是否离职,promotion_last_5years--过去五年升值状况,sales--工种,salary--工资。

而且简单的观测了一下,没有发现缺失值,那么我就可以直接进入数据分析阶段了。

数据预处理

根据每一个特征的数值情况,我们可以将不少特征因子化,方便后期做不同类别的差异分析。

  1. hr$sales<-as.factor(hr$sales) 
  2. hr$salary<-as.factor(hr$salary) 
  3. hr$left<-as.factor(hr$left) 
  4. hr$Work_accident<-as.factor(hr$Work_accident) 
  5. hr$left<-recode(hr$left,'1'="yes",'0'="no") 
  6. hr$promotion_last_5years<-as.factor(hr$promotion_last_5years) 

看的出大部分数据都是数值型的,我们使用相关性来衡量不同变量之间的相关性高低:

  1. cor.hr<-hr %>% select(-sales,-salary) 
  2. cor.hr$Work_accident<-as.numeric(as.character(cor.hr$Work_accident)) 
  3. cor.hr$promotion_last_5years<-as.numeric(as.character(cor.hr$promotion_last_5years)) 
  4. cor.hr$left<-as.numeric(as.character(cor.hr$left)) 
  5. corrplot(corr = cor(cor.hr),type = "lower",method = "square",title="变量相关性",order="AOE") 

用R语言分析与预测员工离职

直观的来看,是否离职和满意度高低就有很高的关联性啊。

EDA

  1. ggplot(group_by(hr,sales),aes(x=sales,fill=sales))+geom_bar(width = 1)+coord_polar(theta = "x")+ggtitle("不同职业的人数") 
  2. ggplot(hr,aes(x=sales,y=satisfaction_level,fill=sales))+geom_boxplot()+ggtitle("不同职业的满意度")+stat_summary(fun.y = mean,size=3,color='white',geom = "point")+ 
  3.   theme(legend.position = "none") 
  4. ggplot(hr,aes(x=sales,y=satisfaction_level,fill=left))+geom_boxplot()+ggtitle("不同职业的满意度") 
  5. ggplot(hr,aes(x=sales,y=average_montly_hours,fill=left))+geom_boxplot()+ggtitle("不同职业的工作时长") 
  6. ggplot(hr,aes(x=sales,y=number_project,fill=left))+geom_boxplot()+ggtitle("不同职业的项目情况") 

用R语言分析与预测员工离职

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读