玩转大数据，你应该知道的75个专业术语

发布时间：2018-04-04 06:11:54 所属栏目：大数据来源：站长网

导读：如果你刚接触大数据，你可能会觉得这个领域很难以理解，无从下手。不过，你可以从下面这份包含了 25 个大数据术语的清单入手，那么我们开始吧。算法(Algorithm) ：算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么，「算法」又是何以与大

行为分析(Behavioral Analytics) ：你有没有想过谷歌是如何为你需要的产品/服务提供广告的行为分析侧重于理解消费者和应用程序所做的事情，以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式，社交媒体互动行为，以及我们的网上购物活动(购物车等)，连接这些无关的数据点，并试图预测结果。举一个例子，在我找到一家酒店并清空购物车后，我收到了度假村假期线路的电话。我还要说多点吗

Brontobytes： 1 后面 27 个零，这是未来数字世界存储单位的大小。而我们在这里，来谈谈 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要读这篇文章才能深入了解这些术语。

商业智能(Business Intelligence) ：我将重用 Gartner 对 BI 的定义，因为它解释的很好。商业智能是一个总称，包括应用程序、基础设施、工具以及最佳实践，它可以访问和分析信息，从而改善和优化决策及绩效。

生物测定学(Biometrics) ：这是一项 James Bondish 技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术，如面部识别，虹膜识别，指纹识别等。

点击流分析(Clickstream analytics) ：用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时，为什么某些谷歌广告还是阴魂不散因为谷歌大佬知道你在点击什么。

聚类分析(Cluster Analysis) 是一个试图识别数据结构的探索性分析，也称为分割分析或分类分析。更具体地说，它试图确定案例的同质组(homogenous groups)，即观察、参与者、受访者。如果分组以前未知，则使用聚类分析来识别案例组。因为它是探索性的，确实对依赖变量和独立变量进行了区分。SPSS 提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。

比较分析(Comparative Analytics) ：因为大数据的关键就在于分析，所以本文中我将深入讲解分析的意义。顾名思义，比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少，但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域，通过比较大量的医疗记录、文件、图像等，给出更有效和更准确的医疗诊断。

关联分析(Connection Analytics) ：你一定看到了像图表一样的蜘蛛网将人与主题连接起来，从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统，甚至是数据与多个网络结合之间的相关连接和影响。

数据分析师(Data Analyst) ：数据分析师是一个非常重要和受欢迎的工作，除了准备报告之外，它还负责收集、编辑和分析数据。我会写一篇更详细的关于数据分析师的文章。

数据清洗(Data Cleansing) ：顾名思义，数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录，然后记住「脏数据」。借助于自动化或者人工工具和算法，数据分析师能够更正并进一步丰富数据，以提高数据质量。请记住，脏数据会导致错误的分析和糟糕的决策。

数据即服务(DaaS) ：我们有软件即服务(SaaS), 平台即服务(PaaS)，现在我们又有 DaaS，它的意思是：数据即服务。通过给用户提供按需访问的云端数据，DaaS 提供商能够帮助我们快速地得到高质量的数据。

数据虚拟化(Data virtualization) ：这是一种数据管理方法，它允许某个应用在不知道技术细节(如数据存放在何处，以什么格式)的情况下能够抽取并操作数据。例如，社交网络利用这个方法来存储我们的照片。

脏数据(Dirty Data) ：既然大数据这么吸引人，那么人们也开始给数据加上其他的形容词来形成新的术语，例如黑数据(dark data)、脏数据(dirty data)、小数据(small data)，以及现在的智能数据(smart data)。脏数据就是不干净的数据，换言之，就是不准确的、重复的以及不一致的数据。显然，你不会想着和脏数据搅在一起。所以，尽快地修正它。

模糊逻辑(Fuzzy logic) ：我们有多少次对一件事情是确定的，例如 100% 正确很稀少!我们的大脑将数据聚合成部分的事实，这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式，与像布尔代数等等中的「0」和「1」相反，它旨在通过渐渐消除部分事实来模仿人脑。

游戏化(Gamification) ：在一个典型的游戏中，你会有一个类似于分数一样的元素与别人竞争，并且还有明确的游戏规则。大数据中的游戏化就是使用这些概念来收集、分析数据或者激发玩家。

图数据库(Graph Databases) ：图数据使用节点和边这样的概念来代表人和业务以及他们之间的关系，以挖掘社交媒体中的数据。是否曾经惊叹过亚马逊在你买一件产品的时候告诉你的关于别人在买什么的信息对，这就是图数据库。

Hadoop 用户体验(Hadoop User Experience /Hue) ：Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。

高性能分析应用(HANA) ：这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。

HBase : 一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储，既支持利用 MapReduce 进行的批量计算，也支持利用事物交互的批量计算。

负载均衡(Load balancing) ：为了实现最佳的结果和对系统的利用，将负载分发给多个计算机或者服务器。

元数据(Metadata) ：元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息，这使得查找和使用特定的数据实例变得更加容易。例如，作者、数据的创建日期、修改日期以及大小，这几项是基本的文档元数据。除了文档文件之外，元数据还被用于图像、视频、电子表格和网页。

MongoDB ：MongoDB 是一个面向文本数据模型的跨平台开源数据库，而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。

Mashup ：幸运的是，这个术语和我们在日常生活中使用的「mashup」一词有着相近的含义，就是混搭的意思。实质上，mashup 是一个将不同的数据集合并到一个单独应用中的方法(例如：将房地产数据与地理位置数据、人口数据结合起来)。这确实能够让可视化变得很酷。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/7

首页

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建