玩转大数据，你应该知道的75个专业术语

发布时间：2018-04-04 06:11:54 所属栏目：大数据来源：站长网

导读：如果你刚接触大数据，你可能会觉得这个领域很难以理解，无从下手。不过，你可以从下面这份包含了 25 个大数据术语的清单入手，那么我们开始吧。算法(Algorithm) ：算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么，「算法」又是何以与大

内存计算(In-memory computing) ：通常认为，任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术，它把所有的工作数据集都移动到集群的集体内存中，避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统，它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。

物联网(IoT) ：最新的流行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联，它们能够收发数据。物联网生成了海量的数据，带来了很多大数据分析的机遇。

机器学习(Machine Learning) ：机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法，它们持续地逼近「正确的」行为和想法，随着更多的数据被输入到系统，它们能够进一步提升。

MapReduce： MapReduce 可能有点难以理解，我试着解释一下吧。MapReduceMapReduce 是一个编程模型，最好的理解就是要注意到 Map 和 Reduce 是两个不同的过程。在 MapReduce 中，程序模型首先将大数据集分割成一些小块(这些小块拿技术术语来讲叫做「元组」，但是我描述的时候会尽量避免晦涩的技术术语)，然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描述过的集群)，这在 Map 过程是必须的。然后模型会收集每个计算结果，并且将它们「reduce」成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统是分不开的。

非关系型数据库(NoSQL) ：这个词听起来几乎就是「SQL，结构化查询语言」的反义词，SQL 是传统的关系型数据管理系统(RDBMS)必需的，但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」，纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统，因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。

R 语言：这还有人能给一个编程语言起一个更加糟糕的名字吗 R 语言就是这样的语言。不过，R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言，别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。

Spark(Apache Spark) :Apache Spark 是一个快速的内存数据处理引擎，它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。

流处理(Stream processing) :流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来，流处理方法特别能够针对大规模数据的实时处理。

结构化 vs 非结构化数据(Structured v Unstructured Data) ：这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据，以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据，例如邮件信息、社交媒体上的状态，以及人类语音等等。

下篇(50 个术语)

这篇文章是上篇文章的延续，由于上篇反响热烈，我决定多介绍 50 个相关术语。下面来对上篇文章涵盖的术语做个简短的回顾：算法，分析，描述性分析，预处理分析，预测分析，批处理，Cassandra(一个大规模分布式数据存储系统)，云计算，集群计算，暗数据，数据湖，数据挖掘，数据科学家，分布式文件系统，ETL，Hadoop(一个开发和运行处理大规模数据的软件平台)，内存计算，物联网，机器学习，Mapreduce(hadoop 的核心组件之一)，NoSQL(非关系型的数据库)，R，Spark(计算引擎)，流处理，结构化 vs 非结构化数据。

我们接下来继续了解另外 50 个大数据术语。

Apache 软件基金会(ASF) 提供了许多大数据的开源项目，目前有 350 多个。解释完这些项目需要耗费大量时间，所以我只挑选解释了一些流行术语。

Apache Kafka ：命名于捷克作家卡夫卡，用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流，据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理，卡夫卡目前非常受欢迎。

Apache Mahout ：Mahout 提供了一个用于机器学习和数据挖掘的预制算法库，也可用作创建更多算法的环境。换句话说，机器学习极客的最佳环境。

Apache Oozie ：在任何编程环境中，你都需要一些工作流系统通过预定义的方式和定义的依赖关系，安排和运行工作。 Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

Apache Drill, Apache Impala, Apache Spark SQL ：这三个开源项目都提供快速和交互式的 SQL，如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS)，这些功能将非常有用。抱歉，这里说的有点奇怪。

Apache Hive ：知道 SQL 吗如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

Apache Pig ：Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说，相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的

Apache Sqoop ：一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

Apache Storm ：一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

人工智能(AI)：为什么 AI 出现在这里你可能会问，这不是一个单独的领域吗所有这些技术发展趋势紧密相连，所以我们最好静下心来继续学习，对吧 AI 以软硬件结合的方式开发智能机器和软件，这种硬件和软件的结合能够感知环境并在需要时采取必要的行动，不断从这些行动中学习。是不是听起来很像机器学习跟我一起「困惑」吧。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/7

首页

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建