加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据时代,ETL工具新标准正削弱供应商价值

发布时间:2018-07-10 00:46:16 所属栏目:大数据 来源:搜狐科技
导读:如果你问企业ETL工具重要吗?我想答案一定是肯定的;如果你问企业一定要选用商用ETL工具吗?,这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发人员的学习曲线很高,但它提供了许多好处,比如分

如果你问企业“ETL工具重要吗?”我想答案一定是肯定的;如果你问企业“一定要选用商用ETL工具吗?”,这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发人员的学习曲线很高,但它提供了许多好处,比如分布式处理、可维护性、基于UI而不是脚本等。

 

耦合对编程而言是一个旧概念,但在涉及数据处理方式时仍然是一个相对较新的概念。众所周知,ETL流紧密耦合,但现在的数据流管道是松散耦合的,这种方法也有缺点,例如用暗数据创建数据沼泽。

标准化转换仍然可以遵循ETL过程,但对于像数据自助服务这样的全新概念,不能使用旧的流程和实践。数据质量、数据安全性、元数据管理和数据治理等标准ETL流程仍然与数据驱动相关。

数据湖的影响

大数据的到来对ETL的整体流程造成了影响,ETL必须转型并开始支持大数据生态系统技术,以下是ETL受到大数据影响的具体方式:

1、ETL仍然与使用的DW环境相关。目前,DW和数据湖通过扩展和改进架构相互补充,可能未来也是如此,因为所有新的用例都是使用数据湖构建的。

2、与使用ETL工具/引擎进行处理并将RDBMS作为存储来实现标准转换相比,使用数据湖处理和存储数据提供了单一平台,易于使用且更便宜。

3、数据湖扩展了仅来自标准化ETL的分析,因为数据湖可以实现首次获取,然后是数据准备,这是面向自助服务和ad-hoc的,这在ETL中是不可用的。

4、数据湖被用作数据登陆/归档,甚至RDBMS也无法作为存储解决方案处理。因此,需要重新思考如何实施ETL工具。

5、ETL并不适合在非结构化环境中使用,但是大数据流程可以存储半结构化和非结构化数据,这使得ETL必须向这些方向转换。

随着大数据而出现的新的体系结构和技术都在逐渐削弱传统ETL的作用,ETL工具需要支持新的技术才会有价值,需要向Hadoop和其他开放式架构转变,这也意味着传统ETL供应商的作用在减少。

大数据时代,ETL工具新标准正削弱供应商价值

重塑ETL,需要注意哪些事情:

1、与开源工具的结合程度

用于数据处理和存储的专有技术正在失去与ETL工具的相关性,ETL供应商应该能够支持所有开源项目,比如Spark、MR以及HDFS等。

2.以云为中心

ETL工具应该支持具有内部部署版本的云原生架构,有一些新的云原生ETL工具,如Snaplogic,Informatica Cloud和Talend Integration Cloud,它们提供了一个集成平台即服务(iPaaS),可以解决基础架构方面的许多挑战,但仍有一些ETL功能方面的限制。与新兴工具相比,这些ETL工具并非自助服务,未来应该更多地关注自助服务和机器学习,可以尽量让这些工具实现 ad-hoc和自我训练。

3.为融合数据做准备

ETL是一个以开发人员为中心的数据转换工具,而融合数据准备则是以自助服务为重点的数据转换工具。随着越来越多得开发人员使用数据湖进行分析,无论是临时流程还是标准流程,ETL都开始变得无关紧要,因为自助服务将变得更加普遍,两者合并为创建单一数据转换类别工具,这样的工具可用于任何标准和临时转换。

4. AI / ML

AI / ML是一个推动者,它通过自动化流程帮助数据工程师和开发人员轻松快速完成工作。在AI算法和数据工作者之间创建一个沟通桥梁, 一旦建议被开发者接受,AI就会开始学习,并根据建议调整分类和转换。

因此,AI将继续影响数据架构的许多部分,包括数据分类、数据建模、数据存储等自学习算法,ETL工具需要支持AI解决方案——部分供应商已经开始提供AI功能但离被用作标准解决方案还差得远。

5.自助设计能力

ETL工具应该通过增强现有工具并为此类设计提供新工具,支持创建新的基于自助服务的设计/流程,这将有助于为企业创建新的基于自助服务的用例。

6.实时支持

通过开源技术提供实时支持,并对现有工具的体系结构或为此目的创建新工具,实时让该工具为大数据的所有用例提供支持。

7.大数据质量

仍然没有可以提高大数据质量的ETL工具。很少有人能够描述清楚大数据流程,也没有基于规则的引擎来支持这种执行。 ETL供应商应该专注于这个关键领域,以便能够与Hadoop上基于平台的新工具竞争。

8.匹配和合并大数据支持

在MDM和ETL的灰色区域中 - 需要提供对数据湖中获取数据的支持。这也是一个关键领域,通过使用ML技术,这可以由供应商轻松提供。

9.统一元数据目录支持

大数据时代,企业需要访问其所有数据目录。由于ETL工具已经是元数据的存储库,因此它们能够支持这样的要求,该功能需要自动填充目录,自动对数据进行分类/标记,并启用搜索功能和群组/专家评级。

10.以可重用性为中心的数据湖设计

ETL工具应该通过设计为可重用组件提供支持,这个需求已经出现很久了,是时候重视起来了。

结论

由于大数据时代的到来,企业对数据的掌握更加重视,都希望以更低的成本获得更好的见解,ETL工具需要根据新的需求进行改造,供应商可能会逐渐淡出ETL世界,但还是可以将ETL作为数据转换活动的基础工具提供。 在国外,类似于Talend、Informatica等ETL供应商已经认识到了这些挑战,并创建了专门针对大数据和云计算的新产品。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读