加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

Hadoop 生态之 MapReduce 及 Hive 简介

发布时间:2019-11-01 04:39:09 所属栏目:建站 来源:李一帆
导读:1.计算框架 Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种: 仅批处理框架:Apache hadoop. 仅流处理框架:Apache Storm、Apache Samza. 混合框架:Apache Spark、Apache Flink. 这其中名气最大、使用最广的当属 Hadoop 和 Spark。 虽然两

还拿上面例子来说:统计相同单词在所有输入数据中出现的次数,一个 Map 只能处理一部分数据,而热点单词就很可能会出现在所有 Map 中了,意味着同一单词必须要合并到一起统计才能得到正确结果。这种数据关联几乎在所有的大数据计算场景都需要处理,如果是例子这种的当然只对 Key 合并就OK了,但类似数据库 join 操作这种较复杂的,就需对两种类型(或更多)的数据依据 Key 关联。

这个数据关联操作在 MapReduce中的叫做:shuffle。

2.4 shuffle

shuffle 从字面意思来看,洗牌。下面是一个完整的MR过程,看一看如何洗牌。

Hadoop 生态之 MapReduce 及 Hive 简介

先看左半边

1. 从 HDFS 中读取数据,输入数据块到一个个的 map,其中 map 完成计算时,计算结果会存储到本地文件系统。而当 map 快要进行完时,就会启动 shuffle 过程。

2. 如图,shuffle 也可分为两种,在Map端的是 Map shuffle。大致过程为:Map 任务进程会调用一个 Partitioner 接口,对 Map 产生的每个

这里就实现了对 Map 结果的分区、排序、分割,以及将同一分区的输出合并写入磁盘,得到一个分区有序的文件。这样不管 Map 在哪个服务器节点,相同的 Key 一定会被发送给相同 Reduce 进程。Reduce 进程对收到的

再看右半边

1. Reduce shuffle,又可分为复制 Map 输出、排序合并两阶段。

  • Copy:Reduce 任务从各个 Map 任务拖取数据后,通知父 TaskTracker 状态已更新,TaskTracker 通知 JobTracker。Reduce 会定期向JobTracker 获取 Map 的输出位置,一旦拿到位置,Reduce 任务会从此输出对应的 TaskTracker 上复制输出到本地,不会等到所有的Map任务结束。
  • Merge sort:
  • Copy 的数据先放入内存缓冲区,若缓冲区放得下就把数据写入内存,即内存到内存 merge。
  • Reduce 向每个 Map 去拖取数据,内存中每个 Map 对应一块数据,当内存缓存区中存储的数据达到一定程度,开启内存中 merge,把内存中数据merge 输出到磁盘文件中,即内存到磁盘 merge。
  • 当属于该 reduce 的 map 输出全部拷贝完成,会在 reduce 上生成多个文件,执行合并操作,即磁盘到磁盘 merge。此刻 Map 的输出数据已经是有序的,Merge 进行一次合并排序,所谓 Reduce 端的 sort 过程就是这个合并的过程。

2. 经过上一步Reduce shuffle后,reduce进行最后的计算,将输出写入HDFS中。

以上便是 shuffle 大致四个步骤,关键是 map 输出的 shuffle 到哪个 Reduce 进程,它由 Partitioner 来实现,MapReduce 框架默认的 Partitioner 用 Key 哈希值对 Reduce 任务数量取模,相同 Key 会落在相同的 Reduce 任务 ID 上。

  1. public int getPartition(K2 key, V2 value, int numReduceTasks) { 
  2.  return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;  
  3.  } 

如果对 Shuffle 总结一句话: 分布式计算将不同服务器中的数据合并到一起进行后续计算的过程。

shuffle 是大数据计算过程中神奇的地方,不管是 MapReduce 还是 Spark,只要是大数据批处理计算,一定会有 shuffle 过程,只有让数据关联起来,它的内在关系和价值才会呈现。

3. Hive

上一部分介绍了 MapReduce,接下来简单谈谈 Hive .

我觉得任何一项技术的出现都是为了解决某类问题, MapReduce 毫无疑问简化了大数据开发的编程难度。但实际上进行数据计算更常用的手段可能是 SQL,那么有没有办法直接运行 SQL ?

3.1 Hive是什么

基于Hadoop的一个数据仓库系统,定义了一种类SQL查询语言:Hive SQL。

这里有一个名词 数据仓库,数据仓库是指:面向主题(Subject Oriented)、集成(Integrated)、相对稳定(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策。

这么说可能有点抽象,分解一下:

  • 主题:数据仓库针对某个主题来进行组织,指使用数据仓库决策时所关心的重点方面。比如订阅分析就可以当做一个主题。
  • 集成:数据仓库要将多个数据源数据存到一起,但数据以前的存储方式不同,要经过抽取、清洗、转换。(也就是 ETL)
  • 稳定:保存的数据是一系列历史快照,不允许修改,只能分析。
  • 时变:会定期接收到新的数据,反应出新的数据变化。

现在再看下定义:数据仓库是将多个数据源的数据按照一定的主题集成,进行抽取、清洗、转换。且处理整合后的数据不允许随意修改,只能分析,还需定期更新。

3.2 为什么是 Hive

了解了 Hive 的基础定义,想一下:一个依赖于 HDFS 的数据仓库在 Hadoop 环境中可以扮演什么角色?

前面说到,可不可以让 SQL 直接运行在 Hadoop 平台,这里的答案便是 Hive。它可以将 Hive SQL 转换为 MapReduce 程序运行。

Hive 初期版本默认 Hive on Mapreduce

启动 hive 前通常要先启动 hdfs 和 yarn, 同时一般需要配置 MySQL,Hive 依赖于 HDFS 的数据存储,但为了能操作 HDFS 上的数据集,要知道数据切分格式、存储类型、地址等。这些信息通过一张表存储,称为元数据,可以存储到 MySQL 中。

  • 现在来看下 Hive 的部分命令
  • 新建数据库:create database xxx;
  • 删除数据库:drop database xxx;
  • 建表:
  • create table table_name(col_name data_type);
  • Hive 的表有两个概念:**内部表和外部表**。默认内部表,简单来说,内部表数据存储在每个表相应的HDFS目录下。外部表的数据存在别处,要删除这个外部表,该外部表所指向的数据是不会被删除的,只会删除外部表对应的元数据。
  • 查询:
  • select * from t_table **where** a<100 **and** b>1000;
  • 连接查询:
  • select a.*,b.* from t_a a join t_b b on a.name=b.name;

看到这里,可能会觉得我在写 SQL, 没错,对于熟悉 SQL 的人来说,Hive 是非常易于上手的。

3.3 HIVE SQL To MapReduce

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读