加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据开发之路:hive篇,你看了吗?

发布时间:2019-05-17 03:37:11 所属栏目:教程 来源:金灿灿
导读:引语 大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的小象,也就是我们的大数据领域的数据仓库工具hive。 这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的

结果如下图所示:

大数据开发之路:hive篇,你看了吗?

此时,如果要去top1的数据,只需添加rank为1的条件即可。和row_number功能和用法类似的函数还有rank()和dense_rank(),唯一的区别在返回的排序rank值有细微区别,此处不再赘述。

Hive进阶

数据倾斜

在我们数据清洗过程中,经常会出现一种现象,分布式任务一般会分成多个小任务task,但是呢,有些task处理的很快,有些task就很慢,有时候甚至会卡死导致整个任务失败,这种现象就是恶名远扬的数据倾斜。之所以导致数据倾斜,大部分是join、去重统计(count distinct)或者group by操作中的key分布不均匀。拿最常见的hive查询引擎mapreduce来说,基本就是shuffle阶段,有些reduce任务获取到的key数据量十分多,导致处理很缓慢。

为了避免数据倾斜,一般从两种方向去解决:

1.调整hive参数

我们可以设置hive.map.aggr和hive.groupby.skewindata两个参数为true,此时hive会生成两个job任务,第一个job先将key进行随机化处理,第二个job在进行真正的shuffle key。如下流程说明图:

大数据开发之路:hive篇,你看了吗?

从上图可以看出,由于多次在map端聚合,使得最终shuffle时的数据量大大减少,从而减轻了数据倾斜的程度。

2.优化sql

使用mapJoin:我们经常会有大小表join的需求,而这也是数据倾斜的多发区。此时我们可以使用mapJoin的方式,从而避免shuffle。具体实现就是把小表在每一个Map任务内存中保存一份,从而直接在Map就进行join操作。没了reduce过程,自然也避免了数据倾斜。在hive0.11版本之前,需要显示声明启动该优化操作,如下示例SQL所示:Select /+ MAPJOIN(small_tab)/ .key,value FROM small_tab JOIN big_tab ON small_tab.key = big_tab.key 而在hive0.11版本之后,hive能够自动检测小表,自行进行mapJoin优化。我们可以通过hive.mapjoin.smalltable.filesize参数手动配置小表的阈值(默认值25M)。使用MapJoin有一个缺点在于内存会浪费,因为每个Map端都有一个副本。所以mapJoin也一般只适合大小表join的情况。

异常值、特殊值手动处理:很多时候造成数据倾斜的可能是一些空值或者,字符串导致的。我们可以通过过滤空值或者对空值做随机字符串处理,由此避免空值的影响。

如果是大表和大表的join产生了数据倾斜,mapJoin这种方式不太合适,但是在某些场景下,其中一个大表可以被处理成小表。比如,我们要查询单日访客浏览记录,并需要附加用户信息。这时候要和用户大表user_info关联,而单日访客记录量user_flow也比较大,并不能直接使用mapjoin的方式。但仔细分析,单日访客UV其实并不大,可以先进行简单去重,转换为小表进而可以使用mapJoin。

具体SQL如下所示:

  1. select /+mapjoin(x)/ from user_flow a left outer join (select /+mapjoin(c)/d. from ( select distinct user_id from user_flow )c join user_info d on c.user_id = d.user_id) x on a.user_id = b.user_id; 

优势和不足

Hive目前作为业内使用最为广泛的数据仓库工具,自然有着很多优点: 高可靠、容错性高、扩展性强。

HQL语法和传统SQL类似,且内置大量处理函数支持的存储格式种类多,兼容性强。用户接口多,支持各种形式的调用。但是hive也有它自身的一些不足,比如:

OLTP支持不足,不支持事务,目前只有比较新的版本才可以实现行列级别更新且对格式要求严格。

由于HDFS特性数据处理延迟高效率较低。HQL的表达能力和灵活性方面有限。基于这些优缺点,hive有它自身擅长的领域,比如用作离线数据仓库,批量处理海量数据。如果要追求实时性或者要高效率处理小量数据,目前来看,其他新的技术方案,比如kudu、hbase等或许是更好的选择。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读