作为数据产品经理，你需要知道这些技术知识

发布时间：2019-11-29 23:32:02 所属栏目：云计算来源：顽皮木偶

导读：副标题#e# 在数据分析领域下，总会被提及诸如SQL、Hive，甚至Hardoop、Druid、Spark等这些技术上的词汇。那么作为一名数据领域的产品经理，听着这些不是很常见的产品知识，又应该具备怎样的技术知识呢？本文主要从“用户行为数据“角度介绍一整套的技术架构

比喻需要固定了解每天使用程序的用户的某些设备信息（手机型号、品牌、网络环境等），就可以放在同一张表，而无需跨表关联影响效率，同时这样的设计有利于性能。但具体如何设计，主要是基于业务的指标体系考虑。

四、数据分析层

在大数据分析开发当中，有诸如Spark、Hive、Hbase这些数据库或计算引擎，但这些都基于一套核心的系统，就是Hadoop。要开发一套完整的大数据开发系统，大多数技术都是从Hadoop中获取能力。

4.1.1 定义

Hadoop是大数据开发所使用的一个核心框架，是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的系统。很多关于大数据开发的技术模块都基于此基础上，覆盖了数据传输、数据存储管理、数据计算等诸多方面。

4.1.2 作用

使用Hadoop可以方便地管理分布式集群，将海量数据分布式地存储在集群中，并使用分布式并行程序来处理这些数据。

4.1.3 架构

作为数据产品经理，你需要知道这些技术知识

一套完整的Hadoop框架涉及数据传输、存储到计算等环节，并在这些基础上提供种类较多的组件，为快速搭建大数据分析平台提供成熟的基础能力。

HDFS：能够提供高吞吐量的分布式文件系统。
YARN：用于任务调度和集群资源管理。就好比是一个项目的PMO，产品提需求，根据现有的资源、时间、成本等快速分配任务，调动机器资源来支持。
MapReduce：基于YARN之上，用于大型数据集并行处理的系统。也是初代的计算引擎。Hive就是基于这个系统之上。
Flume：一个日志收集系统，作用在于将大量日志数据从各数据源进行收集、聚合，并终存储。
Sqoop：用于底层数据传输的工具。
Kafka：一种高吞肚量的分布式消息队列系统。
Hbase：一个可伸缩的分布式数据库，支持大型表的结构化数据存储，底层使用HDFS存储数据。
Hive：基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务运行。更多支持离线任务。
Spark：一个快速通用的Hadoop数据计算引擎，适用于实时任务。同时也应用于机器学习、流处理等。

4.2.1 离线计算

离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，且在解决一个问题后就要立即得出结果的前提下进行的计算。时间上按天来算，就是T+1、T+2甚至T+7等，主要看指标的时效性优先级要求。

4.2.2 实时计算

实时计算是相对离线而言，就是指查询条件不固定、目标不明确，但又对数据需求的时效有较大要求，所以需要实时查询进行分析。

优点是自定义条件多，能满足多维分析的数据需求，缺点是考验查询引擎，由于处理数据量大短时间输出结果会有所偏差，且等待时间长。

按照目前行业的发展，关于计算引擎已经发展到了第4代，第1代是MapReduce，而在这里重点介绍5种。

Hive：前面介绍到这种查询引擎，其实它属于第2代流行的引擎，目前仍有大量企业使用这个，主要是十分成熟，能满足大部分的基础需求场景。但由于数据量大，依赖不少组件，导致数据量一大查询速度就相对较慢。
Spark：目前十分流行的第3代查询引擎，能够承担批数据处理，和Hive兼容，相比它查询速度更快一些，扩展性高。
Flink：是近流行的第4代查询引擎，主要是同时支持流数据和批量式数据处理，相较于Spark有较大得提升。但目前技术相对新一些，应用得还不算多。
Druid：一种高效实时、迅速的分布式数据查询系统，它采用不是前3者依赖得hadoop框架。主要支持聚合查询、实时查询，且灵活。但有些数据分析指标不一定能支持。
Impala：一种数据查询引擎，优点在于高性能、低延迟（准实时）。相比hive绕过底层MapReduce,所以更快。同时也支持复杂的交互式查询。

整体来说，不同的业务场景采用不同的计算架构，没有优劣之分，只有合不合适。

五、数据应用层

很多时候，大家常接触的都是数据可视化平台，比如常见的BI报表平台、数据大屏等，都是充分使用了数据可视化技术进行呈现。

那么实现这些效果，又用到了哪些技术手段？