DataPipeline在大数据平台的数据流实践

发布时间：2018-11-24 08:31:49 所属栏目：大数据来源：dockone

导读：进入大数据时代，实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。一、企业级数据面临的主要问题和挑战 1.数据量不断攀升随着互联网+的蓬勃发展和用户规模的急剧扩张，企业数据量也在飞速增长，

Write-Ahead Logging机制其实就是核心思想在数据写入到数据库之前，它先写临时文件，当一个批次结束后，在将这个临时文件改名为正式文件，确保每次提交后的正式文件一致性，如果中途出现写入错误将临时文件删除重新写入，相当于一个回滚。hive 的同步主要利用这种实现方式来保证一致性。首先它同步数据写入到HDFS临时文件上，确保一个批次的数据正常后再重命名到正式文件当中。正式的文件名会包含kafka offset，例如一个avro 文件的文件名为 xxxx+001+0020.avro ，这表示当前文件中有offset 1 到 20 的20条数据。

4. Sink端之GreenPlum

GreenPlum，是一个MPP架构的数据仓库，底层由多个postgres数据库作为计算节点，擅长OLAP，作为BI数据仓库有着良好的性能。

1）DataPipeline对GreenPlum 同步实践以及优化策略

greenplum 支持多种数据加载方式，目前我们使用copy的加载方式。批量处理提高sink端写入效率，不进行insert 和 update 的操作，一律使用 delete + copy 的方式批量加载；多线程加预加载机制：

每个需要同步的表单独记录一个offset，当整个任务失败时可以分开进行恢复；

使用一个线程池管理加载数据的线程，每个同步的表单独一个线程来进行加载数据，多表同时同步；

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建