加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据学习必须掌握的五大核心技术有哪些?

发布时间:2019-05-01 05:33:22 所属栏目:教程 来源:金果6
导读:大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数

Spark拥有Hadoop MapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

五、数据可视化

对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。

在上面的每一个阶段,保障数据的安全是不可忽视的问题。

基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。

控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。

简单说有三大核心技术:拿数据,算数据,卖数据。

首先做为大数据,拿不到大量数据都白扯。现在由于机器学习的兴起,以及万金油算法的崛起,导致算法地位下降,数据地位提高了。举个通俗的例子,就好比由于教育的发展,导致个人智力重要性降低,教育背景变重要了,因为一般人按标准流程读个书,就能比牛顿懂得多了。谷歌就说:拿牛逼的数据喂给一个一般的算法,很多情况下好于拿傻傻的数据喂给牛逼的算法。而且知不知道弄个牛逼算法有多困难?一般人连这个困难度都搞不清楚好不好……拿数据很重要,大数据技术学习交流kou裙,199427210,巧妇难为无米之炊呀!所以为什么好多公司要烧钱抢入口,抢用户,是为了争夺数据源呀!不过运营,和产品更关注这个,我是程序员,我不管……

其次就是算数据,如果数据拿到直接就有价值地话,那也就不需要公司了,政府直接赚外快就好了。苹果落地都能看到,人家牛顿能整个万有引力,我就只能捡来吃掉,差距呀……所以数据在那里摆着,能挖出啥就各凭本事了。算数据就需要计算平台了,数据怎么存(HDFS, S3, HBase, Cassandra),怎么算(Hadoop, Spark)就靠咱们程序猿了……

再次就是卖得出去才能变现,否则就是搞公益了,比如《疑犯追踪》里面的李四和大锤他们……见人所未见,预测未来并趋利避害才是智能的终极目标以及存在意义,对吧?这个得靠大家一块儿琢磨。

其实我觉得最后那个才是“核心技术”,什么Spark,Storm,Deep-Learning,都是第二梯队的……当然,没有强大的算力做支撑,智能应该也无从说起吧。

【编辑推荐】

  1. 大规模集群下的Hadoop NameNode
  2. 大数据开发:剖析Hadoop和Spark的Shuffle过程差异
  3. Hadoop大数据分析平台的介绍性讨论
  4. 数据分析师、大数据开发、Hadoop开发工程师等各路人才薪资怎么样?
  5. 大数据:学Hadoop好还是Spark好?
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读