加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

万亿数据下 Hadoop 的核心竞争力

发布时间:2019-06-20 00:37:33 所属栏目:教程 来源:哥不是小萝莉
导读:1. 前言 在大数据时代,Hadoop 有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像 Google 、Facebook 、Twitter 等这样的企业更是 Hadoop 的最早获益者。那么,今天我们就来聊一聊,万亿数

Hadoop 使企业可以高效的管理数据,以降低数据成本,其中包含业务成本、硬件成本、人工成本、存储成本等。通过易用性、权威性、时效性等特性,Hadoop 还可以帮助用户增加数据价值。目前 Hadoop 社区的支持,以及各大 Hadoop 厂商的支持,使得 Hadoop 从一个单独的开源软件逐步演变成一个具有一定规模的生态系统,这些厂商包含 Cloudera 、MapR 、Hortonworks 等,他们在这一生态系统中扮演着不同的角色,例如有系统厂商、监控服务商、数据分析商等。

而使用者可以从这些厂商中提供的系统来简化 Hadoop 的学习成本,快速构建符合自身要求的大数据平台,同时合理利用厂商提供的附属组件来开发出高效、易用的的大数据应用。

5.2 成熟的 Hadoop 生态圈

Hadoop 不是一个 “ 孤岛 ” 系统,它拥有成熟的 Hadoop 生态圈。

万亿数据下 Hadoop 的核心竞争力

利用 Hadoop 生态圈设计满足自身需求的方案,需要考虑一些关键要素:

  • 从需求的最终结果开始分析,而不是从可用的工具开始。例如,可用性、一致性等;
  • 对数据处理时效性的评估,例如离线任务 ( MapReduce 、Hive ) 、实时任务 ( Flink、Spark Streaming );
  • 尽可能使用成熟的方案。

案例一:获取最后一小时的热门链接

将热门链接集中收集,使用 Flume 将链接发送到 Kafka ,然后使用 Flink 或者 Spark Streaming 计算引擎在1小时的窗口内分析数据,最后将计算后的结果写入到 HBase 进行存储。

万亿数据下 Hadoop 的核心竞争力

案例二:为用户推荐电影

这是一个实时场景,用户喜欢电影,那么用户应立即看到相关电影。

解决思路:每次用户给出评级时,计算建议都是包含权重的,因此我们应该定期根据现有用户行为计算建议。根据对用户行为的理解,可以为给定用户预测所有电影的推荐,然后对其进行排序,并过滤用户已经开过的内容。

组件选取:数据库可以使用 NoSQL 数据库,例如 HBase 。来存储用户评级。计算引擎方面可以选择 Flink 或者 Spark ML 通过 Oozie 定时调度来重新计算用户电影推荐。然后,使用 Flume 和 Spark Streaming 用于流式传输和处理实时用户行为。

工作流程:Web 服务器将用户评级发送给 Flume ,后者将其传递给 Spark Streaming ,然后将结果保存到 HBase 中。接着,使用 Oozie 定时调度执行 Spark ML 应用来重新计算电影推荐并将结果保存到 HBase 中。

万亿数据下 Hadoop 的核心竞争力

6. 是否一定要选择 Hadoop ?

与传统数据库系统相比较,开源的 Hadoop 有自己的优势。尤其是 Hadoop 既能处理关系型数据库中的结构化数据,也能处理视频、音频、图片等非结构化数据。并且 Hadoop 还能够根据数据的规模和问题的复杂度轻松的扩展。那是不是一定要用 Hadoop ?

每个企业都有自己的特殊需求,都有自己的技能栈,如果已经购买了成熟的数据库产品,没有必要舍弃这些产品,要确保对 Hadoop 足够的了解,不要盲目的 “ 跟风 ” 。

然而,Hadoop 是解决大数据的一种技术手段,这个是一个趋势,例如 Hadoop 与 AI 、IoT 等领域的结合使用。了解和掌握 Hadoop 是有所必要的,可以从一些小的项目尝试积累更多经验。

万亿数据下 Hadoop 的核心竞争力

7. 结束语

这篇文章就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以发送邮件给我,我会尽我所能为您解答,与君共勉!

作者介绍:

哥不是小萝莉,知名博主,著有《 Kafka 并不难学 》和《 Hadoop 大数据挖掘从入门到进阶实战 》。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读