加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据分析 :利用向外扩展技术深入挖掘商业价值

发布时间:2021-01-19 20:10:21 所属栏目:大数据 来源:网络整理
导读:导语: 大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了。 方方面面的发展改进已经让从半结构化数据中获取

商务智能工具仍然在不断演变,旨在进一步提升对大数据分析任务的支持能力。它们能够提供更出色的数据可视化处理功能,从而对近实时信息以及类型更为广泛的结构化与非结构化数据加以利用。简单来说,只要数据本身拥有任何一种形式的电子格式,我们就有机会对其加以分析。


大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构,进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。


更多数据源,更多可能性

大数据分析所面临的关键性挑战在于,规模日益庞大的数据源本身可能并不具备固有结构。我们将这些数据源汇聚至一套较为模糊且专为数据查询所打造的结构周边,而后将整体结构交付至数据分析API、服务或者商务智能工具,由后者负责处理数据可视化或者其它类型的交互式分析任务(详见图一)。

  • 能够提供趋势性数据的社交媒体API或者服务

  • 以公共数据服务为代表的外部数据源

  • 传统非结构化数据,例如基于文本的早期数据库


那么这一切到底是如何运作的?首先,非结构化与结构化数据会被收集到一套文件系统当中。在这里,我们考虑使用一套Hadoop分布式文件系统(简称HDFS)。


从理论层面讲,HDFS的功能与其它大数据数据库技术方案并没有什么区别,不过我们可以在数据库内部利用多种不同机制对数据加以处理。或者,大家可能会发现自己的大数据架构内部使用多种数据库技术。总而言之,我们的具体需求决定了这一结构的实际状况。


为数据赋予意义

当利用Hadoop进行大数据分析时,包括结构化与非结构化两类数据,这套分析引擎能够在数秒之内即向商务智能工具返回处理结果。大家可以利用商务智能工具来分析可视化数据、在企业应用程序内部使用嵌入式分析机制或者利用数据分析API或服务分析业务流程。


在Hadoop当中,数据以块的形式被保存在Hadoop集群当中的不同节点内部(见图一)。这套文件系统会为这些数据块创建多套副本,并通过可靠的方式将其发布至整个集群、旨在实现理想的检索速度。数据块的大小可谓多种多样,但一般来说HDFS的典型数据块大小为128MB,且会被复制到集群内的多个节点之上。


我们人类用户只处理文件,这就意味着在其进入文件系统之前、相关内容往往并不属于严格意义上的结构化形式。接下来数据映射机制开始起效,通过对这些非结构化内容的处理为其定义出与内容相关的核心元数据。由于分析工具或者其它数据使用方可能会对元数据提出不同类型的要求,因此这些非结构化数据往往会被不断重复映射、从而调整至最理想的分析状态。


在某些情况下,我们还需要HadoopHive的协助。Hive是一套数据仓库系统,能够对保存在Hadoop集群当中的大型数据集进行数据汇总、临时性查询以及分析。Hive提供的机制允许我们根据数据进行结构规划,并利用一款名为HiveQL的类似于SQL的语言进行数据查询。其接口取决于大家的实际需求以及所使用商务智能工具的数据整合能力。


另一套选项则是ApachePig。Pig是一款面向Hadoop的高层平台,用于创建MapReduce规划。它会对来自MapReduce引擎的规划方案进行抽象化处理。与Hive类似,Pig同样利用自己的独特语言与数据进行交互。


总体而言,当我们通过一款商务智能工具执行查询时,整个过程将分为以下步骤:

  1. 商务智能工具将与集群相对接,从而获取到对应的文件元数据信息。通常情况下,商务智能工具会直接处理已经存在于分析用例或者模型当中的数据结构(详见图二)。大家应该将这种结构视为底层结构化或者非结构化数据的一种抽象性表现形式。

  2. 从这里开始,该系统将从数据存储节点中获取到真正的数据块并将其带回至自身结构当中。实际运作当中,相关物理以及逻辑节点的具体数量是随机的,这取决于该系统的实际要求以及架构设计方式。

  3. MapReduce并行规模模式会从Hadoop集群当中收集数据。这套系统负责处理细节操作信息、管理跨多种可用服务器资源的流程载入机制。

  4. 请求所指向的结果集会被返回至商务智能工具处,用于后续可视化处理或者其它处理方式,这通常与特定数据结构相关。

  5. 商务智能工具能够将数据分层交付至定义模型,其中包括直接从结果集中将数据加载至维度模型以实现复杂分析处理、或者将其交付至图形表现流程。

  6. 在重复上述流程时,这部分数据将迎来增量式更新。


运转中的结构

商务智能工具所使用的结构可以专门针对数据分析目的所创建。相关信息存在于文件系统集群当中,而元数据则根据用例所需要的支持方式被映射至对应内容。这就为用户带来了一类更具动态以及灵活特性的商务智能解决方案。


这是一类非常常见的场景,而大家所选择的商务智能工具当中可能包含多种不同类型的具体方案。很多商务智能工具使用的映射机制能够使数据拥有如存储在传统关系型数据库中的效果。此类工具还能发挥大数据技术的大量原生性功能优势,其中包括在对象利用等分析模型中以不同方式对结构化与非结构化数据加以处理的能力。


某些商务智能工具能够将经过总结或者汇聚的数据载入至一套临时性多维“立方(cube)”结构当中(详见图三)。这就允许分析人员以最具实用性的方式对来自大数据系统的信息进行可视化处理。


(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读