万亿数据下 Hadoop 的核心竞争力

发布时间：2019-06-20 00:37:33 所属栏目：教程来源：哥不是小萝莉

导读：1. 前言在大数据时代，Hadoop 有着得天独厚的优势。然而，每个企业的技术储备和需求特点不同，他们希望从海量的客户数据中挖掘真正的商业价值，像 Google 、Facebook 、Twitter 等这样的企业更是 Hadoop 的最早获益者。那么，今天我们就来聊一聊，万亿数

Hadoop 使企业可以高效的管理数据，以降低数据成本，其中包含业务成本、硬件成本、人工成本、存储成本等。通过易用性、权威性、时效性等特性，Hadoop 还可以帮助用户增加数据价值。目前 Hadoop 社区的支持，以及各大 Hadoop 厂商的支持，使得 Hadoop 从一个单独的开源软件逐步演变成一个具有一定规模的生态系统，这些厂商包含 Cloudera 、MapR 、Hortonworks 等，他们在这一生态系统中扮演着不同的角色，例如有系统厂商、监控服务商、数据分析商等。

而使用者可以从这些厂商中提供的系统来简化 Hadoop 的学习成本，快速构建符合自身要求的大数据平台，同时合理利用厂商提供的附属组件来开发出高效、易用的的大数据应用。

5.2 成熟的 Hadoop 生态圈

Hadoop 不是一个 “ 孤岛 ” 系统，它拥有成熟的 Hadoop 生态圈。

利用 Hadoop 生态圈设计满足自身需求的方案，需要考虑一些关键要素：

从需求的最终结果开始分析，而不是从可用的工具开始。例如，可用性、一致性等;
对数据处理时效性的评估，例如离线任务 ( MapReduce 、Hive ) 、实时任务 ( Flink、Spark Streaming );
尽可能使用成熟的方案。

案例一：获取最后一小时的热门链接

将热门链接集中收集，使用 Flume 将链接发送到 Kafka ，然后使用 Flink 或者 Spark Streaming 计算引擎在1小时的窗口内分析数据，最后将计算后的结果写入到 HBase 进行存储。

案例二：为用户推荐电影

这是一个实时场景，用户喜欢电影，那么用户应立即看到相关电影。

解决思路：每次用户给出评级时，计算建议都是包含权重的，因此我们应该定期根据现有用户行为计算建议。根据对用户行为的理解，可以为给定用户预测所有电影的推荐，然后对其进行排序，并过滤用户已经开过的内容。

组件选取：数据库可以使用 NoSQL 数据库，例如 HBase 。来存储用户评级。计算引擎方面可以选择 Flink 或者 Spark ML 通过 Oozie 定时调度来重新计算用户电影推荐。然后，使用 Flume 和 Spark Streaming 用于流式传输和处理实时用户行为。

工作流程：Web 服务器将用户评级发送给 Flume ，后者将其传递给 Spark Streaming ，然后将结果保存到 HBase 中。接着，使用 Oozie 定时调度执行 Spark ML 应用来重新计算电影推荐并将结果保存到 HBase 中。

6. 是否一定要选择 Hadoop ?

与传统数据库系统相比较，开源的 Hadoop 有自己的优势。尤其是 Hadoop 既能处理关系型数据库中的结构化数据，也能处理视频、音频、图片等非结构化数据。并且 Hadoop 还能够根据数据的规模和问题的复杂度轻松的扩展。那是不是一定要用 Hadoop ?

每个企业都有自己的特殊需求，都有自己的技能栈，如果已经购买了成熟的数据库产品，没有必要舍弃这些产品，要确保对 Hadoop 足够的了解，不要盲目的 “ 跟风 ” 。

然而，Hadoop 是解决大数据的一种技术手段，这个是一个趋势，例如 Hadoop 与 AI 、IoT 等领域的结合使用。了解和掌握 Hadoop 是有所必要的，可以从一些小的项目尝试积累更多经验。

7. 结束语

这篇文章就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以发送邮件给我，我会尽我所能为您解答，与君共勉!

作者介绍：

哥不是小萝莉，知名博主，著有《 Kafka 并不难学》和《 Hadoop 大数据挖掘从入门到进阶实战》。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您