加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

美团R语言数据运营实战

发布时间:2018-08-16 08:41:19 所属栏目:教程 来源:喻灿
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 一、引言 近年来,随着分布式数据处理技术的不断革新,Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益成

实际数据运营分析过程中,可以固化常规的图表展现和可视化分析过程,实现代码复用,提高开发效率。下图是美团到店餐饮技术部数据团队积累的部分可视化组件示例:

美团R语言数据运营实战

图一 可视化组件示例

基于可视化组件库,一个可视化过程只需要一行代码即可完成,能极大提升开发效率。上图中最后的四象限矩阵分析示例图的代码如下:

  1. vis_4quadrant(iris, 'Sepal.Length', 'Petal.Length', label = 'Species', tooltip = 'tooltip', title = '', xtitle = '萼片长度', ytitle = '花瓣长度', pointSize = 1, annotationSize = 1) 

茲再附四象限矩阵分析可视化组件的函数声明:

  1. vis_4quadrant <- function(df, x, y, 
  2.   label = '', tooltip = '', title = '', xtitle = '', ytitle = '', 
  3.   showLegend = T, jitter = T, centerType = 'mean', 
  4.   pointShape = 19, pointSize = 5, pointColors = collocatcolors2, 
  5.   lineSize = 0.4, lineType = 'dashed', lineColor = 'black', 
  6.   annotationFace = 'sans serif', annotationSize = 5, annotationColor = 'black', annotationDeviationRatio = 15, 
  7.   gridAnnotationFace = 'sans serif', gridAnnotationSize = 6, gridAnnotationColor = 'black', gridAnnotationAlpha = 0.6, 
  8.   titleFace = 'sans serif', titleSize = 12, titleColor = 'black', 
  9.   xyTitleFace = 'sans serif', xyTitleSize = 8, xyTitleColor = 'black', 
  10.   gridDesc = c('A 区', 'B 区', 'C 区', 'D 区'), dataMissingInfo = '数据不完整', renderType = 'widget') { 
  11.  
  12.   # 绘制分组散点图 
  13.   # 
  14.   # Args: 
  15.   #   df: 数据框;必要字段;需要进行图形绘制的数据,至少应该有三列 
  16.   #   x: 字符串;必要字段;映射到 X 轴的列名,对应 df 的某一列,此列必须是数值类型或日期类型 
  17.   #   y: 字符串;必要字段;映射到 Y 轴的列名,对应 df 的某一列 
  18.   #   label: 字符串;映射到点上的文字注释 
  19.   #   tooltip: 字符串;映射到点上的悬浮信息 
  20.   #   title: 字符串;标题 
  21.   #   xtitle: 字符串;X 轴标题 
  22.   #   ytitle: 字符串;Y 轴标题 
  23.   #   showLegend: bool;定义分区图例是否展示 
  24.   #   jitter: bool;定义是否扰动 
  25.   #   centerType: 字符串;定义中心点类型,mean 代表平均值,median 代表中位数 
  26.   #   pointShape: 整形;定义点型 
  27.   #   pointSize: 数值;定义点大小 
  28.   #   lineSize: 数值;定义线宽 
  29.   #   lineType: 字符串;定义线型 
  30.   #   lineColor: 字符串;定义线色 
  31.   #   annotationFace: 字符串;定义注释字体 
  32.   #   annotationSize: 数值;定义注释字体大小 
  33.   #   annotationColor: 字符串;定义注释字体颜色 
  34.   #   annotationDeviationRatio: 数值;定义注释文本向上偏移系数 
  35.   #   gridAnnotationFace: 字符串;定义网格注释字体 
  36.   #   gridAnnotationSize: 数值;定义网格注释字体大小 
  37.   #   gridAnnotationColor: 字符串;定义网格注释字体颜色 
  38.   #   gridAnnotationAlpha: 数值;定义网格注释文本透明度 
  39.   #   titleFace: 字符串;定义标题字体 
  40.   #   titleSize: 数值;定义标题字体大小 
  41.   #   titleColor: 字符串;定义标题字体颜色 
  42.   #   xyTitleFace: 字符串;定义 X、Y 轴标题字体 
  43.   #   xyTitleSize: 数值;定义 X、Y 轴标题字体大小 
  44.   #   xyTitleColor: 字符串;定义 X、Y 轴标题字体颜色 
  45.   #   gridDesc: 长度为 4 的字符串向量 
  46.   #   dataMissingInfo: 字符串;数据问题提示文本 
  47.   #   renderType: 字符串;定义渲染结果类型,widget 对应 htmlwidget 组件,html 对应 html 内容 
  48.  
  49.   #   代码实现略 

3.3 可重复性数据分析

数据运营分析往往是一个重复性的、重人工参与的过程,最终会落地一套数据分析框架,这套数据分析框架适配具体的数据,用于支持企业数据决策。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读