大数据架构的分析应用

发布时间：2018-10-19 11:40:32 所属栏目：大数据来源：51CTO技术栈

导读：数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式：广告、社交图谱、信息流、推荐、市

Figure 1-8 展示了这些不同应用如何在该架构组织起来的。

Figure 1-8. Architecture overview

日志摄取

日志摄取应用被用作消费应用日志例如web 访问日志. 为了简化使用场景，提供一个web访问日志，模拟访客浏览产品目录，这些日志代表了点击流日志，既用作长时处理也用作实时推荐。架构有两个选项：第一个是以Flume来传输日志；第二个是以LEK 来创建访问分析。

Figure 1-9 展示了ELK 和Flume是如何处理日志的.

Figure 1-9. Ingestion application

我们在架构中使用ELK ，因为LEK的三个产品无缝集成，能够比使用Flume给我们更多的价值。

机器学习

机器学习应用接收数据流，构建推荐引擎。这一应用使用一个基本的算法来基于Spark MLlib 介绍机器学习的概念。

Figure 1-10 展示了该机器学习应用如何使用Kafka 接收数据，然后发送给Spark 处理,最后在ElasticSearch 建立索引为将来使用做准备。

Figure 1-10. Machine learning

处理引擎

处理引擎是该架构的心脏; 它接收各种源的数据，代理合适模型的处理。

Figure 1-11 展示了由Hive组成的处理引擎如何接收数据，以及Spark的实时/准实时处理。

Figure 1-11. Processing engine

这里使用Kafka 与 Logstash结合把数据分发给ElasticSearch. Spark位于 Hadoop 集群的顶端，但不说必须的。为了简化起见，本书不建立 Hadoop集群，而是以standalone模式运行Spark。

相关阅读：

大数据学习路线（自己制定，从零开始）

大数据干货 | 论Spark高手是怎样炼成的

如何写一个更好的Python函数？

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/7

首页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建