你的数据仓库还在为企业业务拖后腿吗?

发布时间：2018-10-20 19:20:45 所属栏目：教程来源：查士加

导读：【51CTO.com原创稿件】传统数据仓库向大数据的渐进式转型数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入，传统数据仓库的局限性日益凸显，难以适应新技术带来的市场变革，如何面向大数据技术进

副标题[/!--empirenews.page--]

【51CTO.com原创稿件】

——传统数据仓库向大数据的渐进式转型

数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入，传统数据仓库的局限性日益凸显，难以适应新技术带来的市场变革，如何面向大数据技术进行数据仓库的优化、转型是企业IT管理者面临的重要挑战。处于不同阶段的企业如何应用大数据技术?如何面向大数据技术进行数据仓库转型?如何对现有数据仓库进行优化?如何在Hadoop中进行性能优化?这些已成为困扰IT管理者的主要问题。

带着诸多疑问，51CTO记者采访了Cloudera售前技术经理、资深解决方案顾问徐峰先生，徐峰拥有14年数据仓库的项目实施经验，曾作为首席架构师参与过多个大型数据仓库项目的架构设计和项目规划工作。徐峰表示，数字化时代，随着企业内部数据的快速增长，以及外部数据采集成本的不断降低，传统数仓在数据存储和分析应用上都面临着巨大的挑战。

你的数据仓库还在为企业业务拖后腿吗?

现有的数仓环境

传统数仓面临以下局限性：

存储成本较高，在线保留全量、海量数据的目标难以实现;
元数据定义僵化，难以灵活集成多种数据源、支持即席查询;
集群管理复杂、计算资源有限，缺乏统一的管理接口及水平扩展能力;
随着数据规模、用户规模的不断增加，实时分析(例如：欺诈行为识别)SLA无法满足;
常用的数据分析挖掘工具处理全量数据时间过长。

数据仓库呈现三大发展趋势

数据仓库要处理更多类型的全量数据：企业必须能够有效地存储、加工和分析数据，包括结构化数据、半结构化数据和非结构数据。
数据仓库要提供更加广泛的数据访问：数据仓库的访问不再只限于IT部门，所有部门的用户都会要求自助访问全真的数据，甚至希望无需IT部门的协助便可以自行进行数据准备，当然，这个过程中的高访问延迟也是不被接受的。
数据仓库要采取更加实时的业务决策：流式数据为理解和调整当前的业务决策创造了新的可能，但前提是我们要具备对流式数据进行实时处理的能力。实时计算需要新的技术架构，不仅要将数据流与现有数据体系进行对接，还要能够对其进行快速的分析。

企业该如何进行技术选择?

针对这一问题，徐峰认为，企业应根据所处的不同阶段进行选择：

起始阶段：处于这一阶段的大多数企业已采购MPP硬件搭建数据仓库。为了保证业务延续性，对于起始阶段的企业建议以传统技术为主，以大数据技术为辅。例如：ETL处理仍然放在MPP平台，只是利用HDFS做历史数据归档，利用Spark Streaming做小批量数据的实时处理。
发展阶段：这一阶段的企业用户已经掌握了大数据的核心技能，发展阶段建议以大数据技术为主，以传统技术为辅。例如：将ETL处理全部转移到Hadoop平台，而只将处理逻辑简单的固定报表部分放在MPP上。
成熟阶段：建议使用Hadoop平台作为整体架构，将大数据技术应用到极致。

你的数据仓库还在为企业业务拖后腿吗?

将数据仓库规划在Hadoop之上?

“企业可以选择从一开始就将整个数据仓库规划在Hadoop之上。传统数据仓库架构的主要创始人Ralph Kimball博士在2015年发表专题演讲时证实了Hadoop是可以完全取代MPP来建立数据仓库的。”徐峰提到，“在全球范围内，也确实有很多企业已经将他们的数据仓库完全建立在Hadoop之上。”

但是从技术的角度，有一些数据仓库技术或工具与Hadoop相比已非常成熟，可能已有数十年的历史，对于这些长期应用的数据库技术，Hadoop并不具备其中所有的功能或性能。但即便如此，很多用户仍然选择把他们的数据仓库构建在Hadoop架构之上，这是为了能够实现更加优越的可扩展性、更高的性价比，以及更好的灵活性。在实际应用中，即使是规模只有5个节点的小集群，企业使用Hadoop与其他技术选项相比，也能够取得更好的产出、带来更多的业务价值与竞争力。

Cloudera分析型数据库全面升级

针对当前企业级数据仓库(EDW)面临的ETL批量作业运行缓慢、BI报表不能按时生成、业务用户提交的查询迟迟显示不了结果等压力，结合当前数仓发展的趋势，以及企业的云化需求，Cloudera分析型数据库版本进行了全面升级，于2018年8月正式推出了Cloudera数据仓库版本。

徐峰介绍，Cloudera分析型数据库已经在全球最大的900多家组织机构里运行，是一款经历过实战打磨的产品。升级后的Cloudera数据仓库版本提供了企业级混合云解决方案，包含了混合计算、混合存储、混合控制三大关键因素，专为实惠经济、强大可扩展的自助服务分析而构建。这款产品覆盖了数据仓库的整个生命周期，包括数据接入、存储、管理、查询、运行状况检查等等。

Cloudera数据仓库版本适用于以下三场景

ETL卸载：将ETL任务从EDW迁移到Cloudera大数据平台，极大的释放EDW处理能力。基于Hadoop大规模分布式的处理能力，ETL任务将以更快的速度运行，并为包括EDW在内的下游系统提供服务，使得之前错过的SLA成为历史。

自助BI和探索性分析：全面开放数据，所有部门的用户在其安全策略范围内都能自助访问全真数据。借助Read on Schema的灵活性和支持高并发的查询能力，开发人员和分析人员能够实现自助化数据探索，摆脱对IT部门的依赖，能最快的速度解决新问题。

EDW优化：通过Cloudera大数据平台释放EDW处理能力，您可以将EDW系统用于更加复杂的报表生成和热数据处理，在相当长的一段时间内都无需增加EDW存储或计算资源。 EDW和Cloudera大数据平台的混搭结构可以降低数据存储成本，提高数据处理和分析能力，充分发挥两套系统各自的技术优势。

Cloudera数据仓库版本的四大优势

前所未有的数据规模和灵活性：Cloudera提供单一、可扩展的平台，可以处理不同来源、不同类型的全量数据，以推动新的业务洞察。该版本专为Read on Schema功能而设计，可以快速访问贴源的全真数据，甚至支持实时更新。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您