加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理之——dplyr

发布时间:2021-01-25 12:24:45 所属栏目:大数据 来源:网络整理
导读:dplyr 简介 关于 R 中的数据处理,上期我们介绍了 plyr ,这期我们接着介绍数据处理相关包 dplyr 。 dplyr 其实可以看做是 plyr 的升级版, dplyr 中的 d 指 dataframe ,它专注于做基于数据框的处理。如果你熟悉了 dplyr 的这一套处理函数,它将会大大提升

group_by(.data,...): 按数据列对数据进行分组

# 按球员进行分组
by_player group_by)
# 分组计算场均得分以及助攻数据
mydat by_player,0);">toln n(# ggplot2数据可视化
ggplotmydat,0);">aesmpts,0);">mast+ ?geom_pointcol size=5,0);">alpha = 3/labstitle="场均得分与助攻分布",0);">x"得分",0);">y"助攻")

管道操作?%>% or %.%

  • lhs %.% rhs: 管道操作符

管道操作符可以把前面计算的结果输出作为后续计算的输入,它有两个好处,

第一,它的使用可以大大简化程序的中间赋值操作,从而提高代码写作的效率;

第二,在查阅代码时,代码的逻辑层次结构也非常清晰易读。我们来看看如下示例:

  • 普通版

dat1 dat2 dat1,0);">dat3 dat2,0);">dat4 dat3,153);">20 & 10dat4
## Source: local data frame [1 x 4]
## 
## ? player ?toln ? mast ? mpts
## ? ?(chr) (int) ?(dbl) ?(dbl)
## 1 ? 威少 ? ?80 10.425 23.475
  • %>%?

pgdat %>%
 ?(
 ? ? ? ?)
 ?## Source: local data frame [1 x 4]
## 
## ? player ?toln ? mast ? mpts
## ? ?(chr) (int) ?(dbl) ?(dbl)
## 1 ? 威少 ? ?80 10.425 23.475

两表操作函数

表关联

dplyr里有四种表关联函数,功能不尽相同,我们通过下面的例子来说明:

df1 data_framex c(1,0);">y 2:1## Source: local data frame [2 x 2]
## 
## ? ? ? x ? ? y
## ? (dbl) (int)
## 1 ? ? 1 ? ? 2
## 2 ? ? 2 ? ? 1
df2 3a 10,0);">b = "a"## Source: local data frame [2 x 3]
## 
## ? ? ? x ? ? a ? ? b
## ? (dbl) (dbl) (chr)
## 1 ? ? 1 ? ?10 ? ? a
## 2 ? ? 3 ? ?10 ? ? a
  • (编辑:核心网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读