加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

沈艳:关注大数据分析门槛 警惕大数据神话

发布时间:2021-05-28 01:42:15 所属栏目:大数据 来源:网络整理
导读:大数据是近几年最热门的 IT 概念之一,并已在许多领域实现落地。从淘宝利用平台数据解读中国消费趋势和地区差异到出行类 APP 在拥塞的城市中为用户提供快速的车辆调度,从数据分析团队在奥巴马连任竞选中发挥巨大作用到谷歌智能系统 AlphaGo 在人机围棋大战


数据分析门槛并不低
海外网:您强调大数据的分析是有门槛的,也曾撰文提出大数据分析的五步法。现在大数据分析是否有确定的标准?又有哪些需要关注和解决的的问题

沈艳:目前大数据分析方法的核心还是数据挖掘方法。但是由于存在神话大数据分析的倾向,我在一篇文章中提出了大数据分析的五步法,其实这不是新东西,只是把传统的规范的分析数据的方法做了重新的阐释。重点是想强调,大数据只是分析、解决问题的一个元素,而不是全部。

我今天刚读到一段话,它很能代表现在的一些看法,就是讲数家公司的大数据平台就像大数据的淘宝店,“无论你是什么样的企业,只要你对数据有需求,就可以找到提供相关服务的淘宝店主,这些店主可以灵活、有针对性地帮你进行大数据部署,并且价格合理”。它轻描淡写地说,只要你有数据方面的问题,这些店主就可以很好地为你解决,完全没有提及对大数据使用的可行性分析。

我最近重看了一遍《皇帝的新衣》,我在想为什么骗子可以骗那么多人。这里面很重要的一点是,骗子告诉第一个来看衣服的大臣说,这是最新的技术,如果你看不见的话,你就是愚蠢的人。这个逻辑在很多时候都适用。当新技术来临,尤其是面对经济新旧转型迫切需要新事物的时候,我们很容易在没有深究的时候就相信新事物的力量,希望它带来巨大的变化。

但实际上大数据只是我们解决问题过程中的一个部分。只有在必须要用它,并且清晰地知道它各种各样的局限和可能出现的问题的基础上,才能去用它。

我提出大数据分析五步法是想要强调,不管是进行学术研究还是产品开发,首先都要回归问题本源,明确我们要解决的问题是什么。第二步,明确为解决这个问题需要探求怎样的数据,要进行数据的可行性论证。如果小数据可以解决问题,就不需要用大数据。如果大数据被证明质量足够好,能够作为补充,就采用大数据和小数据结合的方式。只有在没有小数据、大数据是唯一合适的数据的情形当中,大数据才能被单独使用,但即便是这样,它的使用都特别需要交叉验证。

我们可以看一下美国的大数据行业图景(big data landscape)。这张图将美国大数据产业分为架构(infrastructure)、分析(analytics)和应用(applications)三个部分。当然这种划分较为粗浅,每一部分并不是那么绝对,同一家企业可能同时涉及几个部分。但是我们看“十三五”规划中大数据战略的内容,会发现主要是在架构和应用部分,比如加快政府数据开放共享,进行海量数据采集、存储、清洗、分析发掘、可视化等领域关键技术攻关,对分析部分的强调还有待加强。

海外网:“十三五”规划纲要里面也涉及到数据的分析发掘,和您强调的数据分析有什么不同?

沈艳:我想,数据分析既包括关键技术攻关,也包括实际运用。举例来说,从传统数据到大数据,数据的维度立刻变得很大,但同时数据也变得稀疏,这种稀疏会给计算带来很多问题。关键技术攻关层面强调的更多是,在维度变大的情况下如何解决计算问题,那就是降维,压缩信息使得结果尽可能稳。但是,如果我们缺少懂得在什么时候用什么样的标准去压缩信息的人才,这就不只是技术问题了。实际数据分析,需要既通晓技术又了解实际问题症结的人才,而我们现在对分析的实际运用部分的强调还不够。

从理论上来讲,只有在架构和分析方面都处理得很好的前提下,才可以有应用,但实际是,现在的一些大数据公司在并不注重数据分析的情况下就开始了应用,最后给出一个APP之类的产品,说用这个就可以了。

可以说,即便做一些大数据产品的时候没有遵循非常科学规范的分析方法,也能够在一定程度上解决问题,但是这些商业模式是否真正可行、是否能够持续是很难确认的,只是在没有出现问题的时候,我们暂且认为没有问题,应用的效果只能通过时间、通过金钱检验。特别是现在大数据已经上升到战略高度,会很快被地方执行。在经济转型的关键时期,如果某些关键行业因为数据素养的缺失出现重大损失,将会是很大的问题。而且当出现问题时再回头纠正的时候,往往需要花费较大的成本。所以我特别呼吁大家关注大数据分析,理解大数据的局限性和可行性,在产业发展之初夯实基础,从而促进产业的健康发展。

海外网:数据分析是这样一个基本的、重要的步骤,为什么却是常常缺失的、不被重视的?

沈艳:每一个行业的发展都需要经历一个积累经验的过程。现在我们进入了大数据时代,而且大数据成为了我们的国家战略,我们会突然感觉到数据分析的需求大量出现了,也才会突然看到在数据分析这里存在大的缺口。

我个人对强调产品端、轻数据开发和分析端的现象感受比较深,希望做一些对大数据分析的概念和方法的澄清,也是因为我亲身参与了一些具体的大数据分析工作。

海外网:您能否再具体谈谈大数据分析中一些需要纠正的关键问题?

沈艳:除了之前说到的“有了大数据,就不再需要抽样”,大数据分析中还有一个常见的错误观点是,只用关心相关,不用关心因果。

为什么这是有问题的?举例来说,按照这个逻辑,“雄鸡一唱天下白”可以表述为,假如我知道世界上所有的公鸡在什么时候打鸣,我就可以预测什么时候天亮,而公鸡打鸣天就亮这个现象背后的机制是不重要的。这个表述在很多时候没有问题,但是也会有例外,例如有些公鸡到下午才打鸣。最核心的问题是,如果我们不懂得公鸡为什么打鸣,以此预测天亮就很容易不准确。因此利用相关关系总结规律是有假设的,也就是大环境、相关的一些因素没有根本性的变化,比如刚才这个情景里就是公鸡的生物钟、地球的自转和公转等特征没有变化。

但是由于数据生成是经营活动的附属产品,而企业的经营可能既要经历经济的繁荣期,也要经历增速不那么快的时期。如果只关心相关而不关注因果,一些在繁荣期可以表现良好的模式可能在衰退期带来极大损失。我们以大数据在互联网金融中一个可能的应用场景——自动化贷款为例来说明这个问题。传统的贷款依靠人工审批,速度较慢且存在人为的主观标准,如果能够利用大数据、通过精确算法实现审批自动化,确实可以降低交易成本,但是要注意,算法成立的基本假定是,机器学习时所用的样本和未来经济的样本非常接近,其中的规律没有发生变化。而一旦经济发生巨大变化,比如金融危机,这时候再用先前经济繁荣时期的模型去预测经济衰退时期的状态,就可能会出现发出去大量贷款收不回来的状况,因为机器学习里没有关于经济衰退的知识,算法没有为探测经济变化做预备。就好像正在高速行驶的车辆一直预设前方道路是平坦的,当它突然遇到悬崖就会掉下去。

其实类似的突然变化在数据生成过程中会常常出现,因为大数据的收集方式和传统数据收集方式有着本质的不同。大数据是现在一些快速活动的副产品,是为企业的主营业务服务的。最早的大数据收集始于谷歌,基于人们搜索、浏览网页时产生的海量数据,出现了一些分布式的处理数据的系统。对于谷歌而言,为给用户提供尽可能快捷便利的搜索工具,这些系统架构、算法会不断调整、优化。这就给数据分析带来一个问题。使用新系统后,由于技术更新和数据分析往往不是同一群人,进行数据分析的员工并不知道系统已经发生了变化、或者不能深刻体会这些变化带来的数据生成规律的变化,这时如果只关心相关而不了解因果,沿用原本的数据分析方法就很可能得出不准确的结论。

大数据应用的效果究竟如何是需要验证的。但现在流行的不少大数据分析往往是一个“黑箱”,企业做出报告,直接告知结论,对数据来源、处理方式不做说明,这中间数据使用得好还是不好,外界不太容易验证。所以大数据分析非常需要新的人才,他们要能够理解数据的收集过程,并且知道数据生成当中的一些变化。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读