加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【快讯】R语言在大数据统计分析中的应用及前景

发布时间:2021-03-09 20:30:12 所属栏目:大数据 来源:网络整理
导读:2016年6月8日下午,数据观—清华大数据 “ 技术 · 前沿 ” 系列思享会在清数D-LAB顺利举办。本次活动有幸邀请到美国普度大学统计系教授及清华大学统计学研究中心兼职教授朱宇进行R语言在大数据统计分析中的应用及前景主题分享。 本次讲座分别介绍了统计分析

2016年6月8日下午,数据观—清华大数据“技术·前沿”系列思享会在清数D-LAB顺利举办。本次活动有幸邀请到美国普度大学统计系教授及清华大学统计学研究中心兼职教授朱宇进行R语言在大数据统计分析中的应用及前景主题分享。


【快讯】R语言在大数据统计分析中的应用及前景


本次讲座分别介绍了统计分析语言R语言和大数据计算平台Hadoop、Spark的历史及优劣势,并分析结合R与大数据计算平台的应用及前景。

【快讯】R语言在大数据统计分析中的应用及前景

讲座逻辑图

朱老师首先系统地介绍了探索性统计分析的流程、常用的统计分析工具(R语言)、以及Hadoop和Spark大数据平台,并根据大数据统计对计算和存储的要求,重点介绍了由R语言、Hadoop、Spark结合的Tessera和SparkR?解决方案,以及重构R语言内核的?SupR。


接着朱老师介绍了探索性统计分析的流程,阐述总体与样本、探索性数据分析以与统计建模三个环节。探索性数据分析过程中通过利用散点图、聚类等方法发现规律和非正常现象,在此基础上进行统计建模并选择合适的模型,再根据数据进行模型拟合和参数估计后,对模型进行诊断。


紧接着,朱老师对常用的统计分析语言和工具进行了简单介绍,详细介绍了R语言的易用性和强大的扩展功能。同时,针对大数据4V的特点(即数据量大、数据产生速度快、数据类型多样、数据价值密度低),朱老师又说明了大数据统计分析与计算和存储所带来的挑战。


之后,朱老师讲解了目前主流的大数据平台Hadoop和Spark的基本原理、架构及优劣势。并分析了R语言单线程和内存使用方面的局限性。


【快讯】R语言在大数据统计分析中的应用及前景

目前流行的解决R语言和大数据平台对接问题三种方案,其特点与局限如图所示

最后,朱宇老师列举了目前R语言在大数据平台的尝试,分析了Tessera平台和SparkR平台基本原理,并结合实际范例予以讲解,同时指出了R语言运用到Hadoop、Spark方案的不足之处,即R语言强大的可扩展性没有得到很好继承。此外,朱宇老师还介绍了由普渡大学统计系刘传海教授独立研发的SupR解决方案:通过对现有R 内核的改进实现在单机上的多线程和在集群上的分布式计算功能。SupR目前仍处在内部试用和补充完善阶段。有兴趣参与完善SupR的朋友可以通过数据派(微信ID:datapi)与刘传海教授或朱宇教授联系。


【快讯】R语言在大数据统计分析中的应用及前景

本次活动的听众主要是相关领域的老师、学生及技术类人才。在提问环节中,朱宇老师与听众就SparkR与R的关系及Spark的缺点和弹性的细节等问题进行了交流与探讨。现场气氛热烈。


本次活动由清华大学统计学研究中心、数据科学研究院主办,?中国大数据产业观察网、清华大数据产业联合会承办。

【快讯】R语言在大数据统计分析中的应用及前景

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读