加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据架构的分析应用

发布时间:2018-10-19 11:40:32 所属栏目:大数据 来源:51CTO技术栈
导读:数据管理比以往更加复杂,到处都是大数据,包括每个人的想法以及不同的形式:广告 、 社交图谱、信息流 、推荐 、市

Figure 1-8 展示了这些不同应用如何在该架构组织起来的。

9

Figure 1-8. Architecture overview

日志摄取

日志摄取应用被用作消费应用日志例如web 访问日志. 为了简化使用场景,提供一个web访问日志,模拟访客浏览产品目录,这些日志代表了点击流日志,既用作长时处理也用作实时推荐。架构有两个选项:第一个是以Flume来传输日志;第二个是以LEK 来创建访问分析。

Figure 1-9 展示了ELK 和Flume是如何处理日志的.

10

Figure 1-9. Ingestion application

我们在架构中使用ELK ,因为LEK的三个产品无缝集成,能够比使用Flume给我们更多的价值 。

机器学习

机器学习应用接收数据流,构建推荐引擎。这一应用使用一个基本的算法来基于Spark MLlib 介绍 机器学习的概念。

Figure 1-10 展示了该机器学习应用如何使用Kafka 接收数据,然后发送给Spark 处理,最后在ElasticSearch 建立索引为将来使用做准备。

11

Figure 1-10. Machine learning

处理引擎

处理引擎是该架构的心脏; 它接收各种源的数据,代理合适模型的处理。

Figure 1-11 展示了由Hive组成的处理引擎如何接收数据,以及Spark的实时/准实时处理。

12

Figure 1-11. Processing engine

这里使用Kafka 与 Logstash结合把数据分发给ElasticSearch. Spark位于 Hadoop 集群的顶端, 但不说必须的。为了简化起见,本书不建立 Hadoop集群,而是以standalone模式运行Spark。

相关阅读:

大数据学习路线(自己制定,从零开始)

大数据干货 | 论Spark高手是怎样炼成的

如何写一个更好的Python函数?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读