加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

DataOps:现代数据管道的精髓

发布时间:2020-03-14 08:44:11 所属栏目:移动互联 来源:站长网
导读:副标题#e# 【金融特辑】光大****科技部DBA女神带你从0到1揭秘MGR DataOps,即Data和Operations组合。是在数据分析过程中,提升数据质量,减少数据分析的周期时间,提高效率的一系列实践,现在逐渐发展成了一门方法论。DataOps适用于从数据准备到报告的整个

有许多工具可以支持开发和部署的流程。你可以选择从头开始构建新的应用程序或用例,或者修改现有的用例。Git是一个很好的工具,它用于存储代码和控制版本,而Jenkins是支持CI/CD流程(即合并和部署代码)的开源工具。在数据世界中,有许多针对特定类型管道的开发和部署工具,包括数据仓库开发(即数据仓库自动化工具)和创建机器学习模型。

编排。DataOps的核心和灵魂在于编排。在管道中移动,我们需要具有众多依赖关系的复杂任务工作流来处理和丰富数据。一些著名的数据编排工具如Airflow,一些开源项目如,DataKitchen,StreamSets和Microsoft Azure的DataFactory。一个好的编排工具可以很好的协调数据开发项目的所有四个组成部分:代码,数据,技术和基础架构。在DevOps环境中,业务流程工具使用容器编排框架(例如Kubernetes)来激活和协调容器以支持这些流程(如开发、测试、staging和生产环境)。

在数据世界中,业务流程工具不仅提供了新的开发/测试/生产环境。它们还负责在管道中不同阶段之间移动数据,并实例化对数据进行操作的数据工具。他们一边工作,一边监控进度,还要将错误归纳到合适的界面并发出警报。例如,在云环境中,DataOps编排工具可能会执行以下操作:

设置平台(例如数据库,存储容量,访问控制列表,性能管理工具,数据目录,日志服务器和监视工具)。

触发采集作业。监视作业(批处理或流式传输),检测故障并从中恢复,监视容量并在需要时触发自动缩放。

触发数据质量作业。分析和验证数据,检查血缘。

快速启动数据转换。一旦采集的数据集获得了通过健康检查,编排工具可能会启动转换代码来合并,格式化和聚合数据元素。

触发BI工具。以将数据下载到其自己的列式存储中,或发送一个通知,告知已准备好进行查询和分析的新数据集。

监控工作流程。成功完成工作流程后,程序会向适当的人员发出通知,并释放基础架构。

持续测试和监控。 DataOps环境的最后组成部分是测试环境。理想情况下,团队在开发任何代码或功能之前就写好了测试。然后,业务流程工具在管道中的每个阶段之前和之后运行测试。在启动和集成时,在上游捕获错误和问题可以节省大量时间,金钱和麻烦。诸如Great Expectations和ICEDQ之类的工具就支持持续的测试环境。还有一些产品提供对工具,应用程序和基础架构的持续监控,以确保最佳的正常运行时间和性能。 Unravel就是面向大数据处理的应用程序性能管理(APM)产品之一。

使用测试作为基本构建块的开发团队的要比那些不使用的团队开发速度更快。对于大多数想在开始之前不进行测试的情况下潜入项目的开发人员来说,这起初是违反直觉的。但是一旦测试到位,开发人员就可以在发现难以解决的代码之前迅速发现问题。通过持续的测试和监控,团队可以设定性能目标,衡量输出并不断改善其周期时间和质量。

结论

DataOps的目标是为了使数据管道和应用程序的开发变得更加严谨,可重用和自动化。 DataOps可以帮助数据团队从数据孤岛,以及被积压和无休止的质量控制问题缠身的状况转变为敏捷,自动化和加速的数据供应链,并且它能持续改善并为企业带来价值。

译者介绍 Grace,程序员,研究生毕业于SUNY at Stony Brook,目前供职于Linktime Cloud Company,对大数据技术以及数据可视化技术感兴趣。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读