规划大数据业务七步走

发布时间：2021-07-29 00:35:49 所属栏目：大数据来源：互联网

导读：对于大数据，有三个重要的事实。首先，它并不是新趋势。亚马逊、微软和谷歌自上世纪90年代就开始进行大数据工作。事实上，几十年来，很多公司都一直在挖掘数据。

副标题[/!--empirenews.page--]

对于大数据，有三个重要的事实。首先，它并不是新趋势。亚马逊、微软和谷歌自上世纪90年代就开始进行大数据工作。事实上，几十年来，很多公司都一直在挖掘数据。可能由于当时只有资金雄厚的大型公司才能够进行大数据研究，但大数据确实早已存在。现在，基于廉价的计算和存储能力以及新工具和技术，几乎每个人都可以使用高级数据挖掘技术和算法了。

很多人认为大数据只是商业智能（BI）的新名称，虽然这两者有相似之处，但大数据超出了BI的范畴。

第二个事实：“大”是相对的。现在各行业各组织确实正面对创纪录水平的数据增长。据IDC称，我们每秒创造超过58 TB数据，到2020年，将拥有超过35ZB的存储数据。然而，大数据并不一定是巨大的，大数据并不在于其规模，而在于你需要如何处理它。拥有100 TB的小公司可能也存在大数据问题，因为他们需要提取、分析数据，并作出决策。

第三，大数据处理中使用的数据的定义是广泛的，它可以包含结构化和非结构化数据。对于一些公司来说，最重要的是大数据的元数据，或者关于数据的数据。

麦肯锡将大数据定义为“其规模超出传统数据库软件的捕捉、存储、管理和分析能力的数据集”,笔者补充了这一点：“这些数据集需要大量运行在数百甚至数千台服务器（云）的并行软件（系统）来处理。”

以下是大数据成功的7个步骤：

第1步：承认存在问题。这往往是最难的一步。10年前，我们拒绝承认我们的网络已不再受防火墙和代理服务器设置的保护，而我们不得不为员工远程访问开放基础设施并拥抱互联网。对于大数据，IT领导者需要评估其数据情况：

● 你的数据集让你不堪重负吗？

● 你不知道所有数据的位置？

● 你（或者企业领导者）没有从你的数据中得到所需的信息？

● 企业领导没有基于数据来做决策？

● 有可能提高IT在企业政策和战略决策中的相关性吗？

如果你像大多数公司一样，部分或者所有这些问题的答案都是肯定的，那么是时候控制你的数据，并从中挖掘出情报以提供给领导层做决定。

第2步：认识到大数据带来的大机会。我们总是被告知要紧密联系业务，“业务技术”这一说法已存在多年，但我们总是很难看到最新的软件和流程如何直接影响收入或者全球经济增长。而大数据却可以。为什么？因为信息就是力量，企业领导需要数据中挖掘出的信息来帮助企业竞争和发展。员工、客户和市场产生的大量数据让整个企业（从销售到营销部门）都不堪重负。而大数据能够为你提供简洁且实时的价值信息，帮助增加收入。[page]

第3步：制定大数据计划。与任何计划一样，你开始就应该想到结果。企业需要知道什么？他们需要回答的问题是什么？在你开始使用Hadoop前，解决这些问题，并签订联合协议。然后按照下列步骤操作（每个步骤可能需要数周或者数月）：

1、隔离属于“大数据”的部分数据

2、分离“产品”大数据和“公司”大数据，例如人力资源分析需要的员工数据和电子商务平台的客户或产品搜索数据需要分离

3、认识和了解你的数据的波峰和波谷

4、了解哪些技术允许实时（或接近实时）大数据处理

5、确定关键的解决方案/供应商

6、从小事做起，评估与发展-先做一个项目，让你可以快速展示成果和ROI,然后转移到下一个大数据项目

7、继续分析、调整和输入-大数据是灵活的，需要随着数据、情报和企业要求的变化进行调整

第4步：利用分布式系统。大数据要求我们转换对系统和基础设施的想法。正如虚拟化从根本上改变了我们利用服务器和应用程序的方式，分布式系统和处理使我们能够管理大数据，因为分布式架构允许我们将问题分解成很多小任务，然后将这些任务分配到多个系统。好消息是，我们拥有了越来越多的攻击和架构框架可以利用，包括Cassandra、Hadoop、VMware、Red Hat等。分布式系统并不新鲜，但大数据将其带入到全新的水平，分布式方法包括：

● 多租户架构

● 分布式数据库

● 虚拟化

● 多线程

● 多核心CPU

● 并行处理

● 分布式文件系统

● 分布式负载平衡

● RAID算法

第5步：从分布式到分散式。对大多数公司来说，这是真正的范式转变，这也是大数据和云计算结合的地方，鉴于互联网是世界上最大的分布式和分散的系统，我们应该更加充分地利用互联网来实现大数据。

我们很喜欢分布式实例或者计算处理，但分散式往往有种失去控制的感觉。这有必要吗？对于大数据，采用分散式做法是必要的，因为由于过度和孤立的服务，所有未使用的实例和存储容量都将浪费。

更重要的是，单靠分布式组件无法让我们跟上数据增长的步伐。IDC估计，到2020年，产生的数据和数据中心容量之间的差距将达到60%.

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建