设为首页 - 加入收藏 华夏网 (http://www.hxwgxz.com)- 华夏领先的创业资讯站长网站!
热搜: 系统 平台 2017 小学
当前位置: 主页 > 教程 > 正文

数据可视化过程不完全指南

发布时间:2018-09-10 11:35 所属栏目:[教程] 来源:钟家福
导读:9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 数据集犹如世界历史状态的快照,能帮助我们捕捉不断变化的事物,而数据可视化则是将复杂数据以简单的形式展示给用户的良好手段(或媒介)。结合个人书中所学与实际工作所学,对数
9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!

数据集犹如世界历史状态的快照,能帮助我们捕捉不断变化的事物,而数据可视化则是将复杂数据以简单的形式展示给用户的良好手段(或媒介)。结合个人书中所学与实际工作所学,对数据可视化过程做了一些总结形成本文供各位看客"消遣"。

数据可视化过程不完全指南

个人以为数据可视化服务商业分析的经典过程可浓缩为:从业务与数据出发,经过数据分析与可视化形成报告,再跟踪业务调整回到业务,是个经典闭环。

数据可视化过程不完全指南

本文主题为数据可视化,将重点讲解与数据可视化相关的环节,也即上图中蓝色的环节。

一、理解 DATA

进行 DATA 探索前,我们需先结合业务去理解 DATA,这里推荐运用 5W1H 法,也即在拿到数据后问自身以下几个问题:

  • Who: 是谁搜集了此数据? 在企业内可能更关注是来自哪个业务系统。
  • How: 是如何采集的此数据? 尽可能去了解详细的采集规则,采集规则是影响后续分析的重要因素之一。如:数据来自埋点,来自后端还是前端差异很大,来自后端则多是实时的,来自前端则需更近一步了解数据在什么网络状态会上传、无网络状态下又是如何处理的。
  • What: 是关于什么业务什么事? 数据所描述的业务主题。
  • Why: 为什么搜集此数据? 我们想从数据中了解什么,其实也就是我们此次分析的目标。
  • When: 是何时段内的业务数据?
  • Where: 是何地域范围内的业务数据?

通过回答以上几个问题,我们能快速了解:数据来源是什么?它的可信度有多少?它在描述何时发生的怎样的业务(问题)?我们为什么要搜集此数据?等等。从而快速了解数据与业务开展近一步的探索与分析。

二、探索 DATA

之前的文章中,我们曾经分享过如何快速地探索 DATA ( 「如何成为一名数据分析师:数据的初步认知」 ),其中有谈到如何通过诸如平均数/中位数/众数等描述统计、通过相关系数统计快速探索 DATA 的方法。本文主要讲解可视化,所以将从可视化的角度去介绍如何通过可视化方法进行数据探索。

在探索、研究阶段,更重要的是要从不同的角度去观察数据,并逐步深入到对业务更重要的事情上。在这个阶段,我们不必去过多地追求图表美化,而应该尽可能快速地尝试更多个角度。下面我们根据数据/主题类型的差异分开阐述:

1. 分类数据的探索

在业务分析中,我们常常将人群、地点和其他事物进行分类,分类能为我们带来结构化,能让我们快速掌握信息。

在分类数据可视化中,我们最多使用的是条形图;但当试图观察分类中的比例时,我们可能也会选择饼图、瀑布图;当不仅关心一级分类还关心子分类时候,我们可能会选择树形图。通过对分类数据的可视化,我们能快速地获取最大、最小值,同时也能方便地了解到数据集的范围,因为它在一定程度上还反映了数据分布特征。下图展示了可视化分类数据的一些选择:

a. 条形图,用长度作为视觉暗示,利于直接比较。

数据可视化过程不完全指南

b. 使用饼图、柱形堆叠图、瀑布图等,能在分类数据中对比占比情况。

数据可视化过程不完全指南

c. 使用树形图,能在展示一级分类的子类统计,可实现维度的又一层下钻。

数据可视化过程不完全指南

2. 时序数据的探索

业务分析中,我们常常关心事物随着时间的变化趋势,以及数据随时间变化的规律(时间周期下的规律)。所以,对时序数据的探索,主要有两种模式:其一为随着时间线索向右延伸的时序图,诸如:折线图、堆积面积图等;其二为根据时间周期,统计汇总的柱形图、日历图、径向图等。

a. 用于观察事物随时间线索变化的探索。

数据可视化过程不完全指南

b. 用于发现事物随时间周期变化规律的探索。

数据可视化过程不完全指南
数据可视化过程不完全指南

3. 空间数据的探索

空间数据探索主要是期望展现或者发现业务事件在地域分布上的规律,即区域模式。全球数据通常按照国家分类,而国内数据则按照省份去分类,对于省份数据则按照市、区分类,以此类推,逐步向细分层次下钻。空间数据探索最常用为等值热力图,如下:

数据可视化过程不完全指南

4. 多元变量的探索

数据探索过程中,有时候我们需要对比多个个体多个变量,从而寻找数据个体间的差异或者数据变量间的关系。在这种情况下,我们推荐使用散点图、气泡图,或者将多个简单图表组合生成“图矩阵”,通过对比“图矩阵”来进行多元变量的探索。其中,散点图和气泡图适合变量相对较少的场景,对于变量5个及以上的场景我们更多地是推荐“图矩阵”。

a. 变量相对较少(5个以下)的场景我们采用散点图与气泡图。

数据可视化过程不完全指南

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章