加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

沈艳:关注大数据分析门槛 警惕大数据神话

发布时间:2021-05-28 01:42:15 所属栏目:大数据 来源:网络整理
导读:大数据是近几年最热门的 IT 概念之一,并已在许多领域实现落地。从淘宝利用平台数据解读中国消费趋势和地区差异到出行类 APP 在拥塞的城市中为用户提供快速的车辆调度,从数据分析团队在奥巴马连任竞选中发挥巨大作用到谷歌智能系统 AlphaGo 在人机围棋大战
副标题[/!--empirenews.page--]

大数据是近几年最热门的IT概念之一,并已在许多领域实现落地。从淘宝利用平台数据解读中国消费趋势和地区差异到出行类APP在拥塞的城市中为用户提供快速的车辆调度,从数据分析团队在奥巴马连任竞选中发挥巨大作用到谷歌智能系统AlphaGo在人机围棋大战中获胜,呼喊大数据力量神奇的声音从未停歇。

?

然而人们也不得不承认大数据应用喜忧参半的事实,特别是曾作为大数据具备革命性潜力证明的谷歌流感趋势近几年的预测结果并不尽如人意。大数据是否被过度热炒和不恰当运用?现行大数据分析是否科学可靠?疑问接踵而至。

如今,大数据已作为我国的国家战略被写进“十三五”规划纲要,被期助力产业转型升级和社会治理创新,对于大数据相关疑问的思考尤为重要。海外网财经对话北京大学国家发展研究院教授沈艳,探讨大数据应用的陷阱和门槛,以期为“十三五”蓝图中大数据产业的健康发展建言献策。


(北京大学国家发展研究院教授沈艳接受海外网采访)


大数据不能替代小数据



海外网:大数据是这几年提出来的一个概念,但对海量数据的处理早已存在。大数据与从前对数据的采集分析有哪些不同?

沈艳:我们可以先梳理一下数据使用的变迁。早期,人们用统计方法来观察和研究世界探求规律时,认为数据量越大越好。到了近一百年前,英国统计学家开始将抽样技术用于社会调查中。抽样技术的使用基于这样的认知:如果界定出清晰的总体,那么通过随机抽样技术,只要能把关键节点描摹出来,就能用有限的样本去推断人们关心的总体。在科学抽样概念的基础之上,数据调查产业、以及很多分析行业就发展起来。到了21世纪,随着计算机技术的发展,比过去大得多的数据量出现了。

一种对于大数据优越性的看法是,有了大数据就有了总体,就不再需要抽样了。这种看法的逻辑似乎是,只要数据量足够大,那么通常利用有限信息来推测真实状况的不确定性就可以迎刃而解。这一观点似是而非。首先大数据和传统数据最主要的不同在于,大数据的采集过程更多是生产经营等各类活动的未经处理的附属产品。传统的数据收集模式,或者通过问卷调查;或者即便是经营活动留下的数据,往往也有比较规范的标准,使得数据的含义前后尽可能可比。由于收集的信息只是经营活动的附属产品,数据反映的信息可能只是总体的一部分,其他部分是缺失的。另一方面,何为总体取决于人们关心的问题,而随着时间的变化,总体可能还会发生变化,因为有一些新信息在时间推移中才能够出现。例如,谷歌有其所有用户的浏览点击记录,如果将总体就定义为“谷歌所有用户的浏览行为”,那么谷歌数据可以被看作总体;但是如果总体是“互联网所有用户的浏览行为”,那么显然谷歌数据只是其中一部分;再如,“使用谷歌搜索流感相关信息的用户” 和“美国流感人群”这个总体之间,恐怕只有一部分重合,因此用后者预测流感趋势,存在先天不足。

事实上,大数据相比过往的数据处理给我们带来了更多挑战:算法不同带来数据生成机制的不同;时间频率增大、颗粒度变小之后噪音也越大等。

海外网:如今大数据已被提升到国家战略的地位,数据正在成为我们战略性的基础资源,甚至被称为“新的石油”、“类似货币或黄金的新型经济资产”,您如何评价这些说法?

沈艳:数据的确已经开始成为新的战略性基础资源。在大数据被提升到国家战略地位时,数据资源的归属、开发、转让等规则,需要尽快明确。例如,在研究中我们常常发现,其他国家可以免费获取的一些基本公共数据,在我国往往难以获取。或者是数据获取渠道不清晰,或者即便找到了获取渠道,往往也不得不支付高昂的费用来获取在其他国家可以免费获得的资料。另外还存在这样的情形,就是有关部门公布了一部分数据之后,发现这些数据引发了质疑、争论,之后就索性不再更新相关数据,导致无法及时厘清信息真相的局面。“实事求是”,首先要能对“实事”给出基本描述,不然就会产生具有煽动性的、不准确的信息在民间流传,而希望分析可靠数据、澄清错误观念的努力又因为缺乏数据而无法有效实现的局面。在“十三五”规划中,很高兴可以看到“加快建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享。制定政府数据共享开放目录,依法推进数据资源向社会开放”这样的内容,盼望可以尽快落到实处,避免一旦认定数据成为战略性基础资源,就迅速成为政府新的垄断资源,政府何时公开、对谁公开都由有关部门自行把握的局面。

海外网:如何理解大数据成为国家战略的经济和社会背景?它在产业转型和社会治理方面能够产生怎样的助推力?

沈艳:大数据被放到了一个非常重要的位置,表明我们国家在推动创新这方面有很大的决心。这背后还有一个大的背景,就是在全球需求疲软的情形当中,传统出口导向的经济模式已经难以继续支撑中国经济的增长,我们的经济迫切需要转型;而在寻找新的增长点的时候,我们会发现数据在新兴行业中的重要性越来越显著。合理使用数据,对未来中国经济成长具有重要意义。

如果运用得当,大数据能够帮助我们快速刻画新旧经济的更替和发展趋势,发现新的增长点。拿我们做的一个课题新经济指数为例,我们的目标是用该指数来刻画中国经济转型过程中新经济的成长与变迁。由于新经济是新概念,现有的统计还没有对相应内涵的界定和度量,因此依靠传统数据,我们无法对于新经济的成长和变迁得出及时的描绘。这里,大数据给我们提供了在短时间内刻画国家新经济基本状况的可能性。因此你可以想象很多崭新的机会,比如刻画一个地区的产业布局以及与其他地区产业布局相比的高下特征,这将给当地产业的发展方向提供可视化指导,也可以为政府决策提供一定参考。

比如在北京,交通拥堵问题非常受关注。过去提供给决策者的数据往往来自抽样调查,到了现在大数据已经可以实时记录路面状况,记录具体流向,记录交通高峰和低谷。如果充分利用这些信息,那么在解决交通拥堵这一问题上,也许可以采取一些措施,考虑鼓励或不鼓励人们在某些时段走某些路段,而不是不管人们的实际需要,简单采取限号措施、甚至采用单双号限行。恰当运用大数据为更低成本地、更精准地管理城市提供了可能。

海外网:“大数据+”被认为有助于许多行业的创新发展。在您看来,大数据更可能给哪些行业带来变革性的影响?

沈艳:我想是新经济指数中的新经济行业,它们在未来决策中可能需要使用更多的数据。我们说的新经济行业是指那些高技术投入、高人力资本、轻资产的行业;最近几年有持续增长的行业,以及符合国家产业政策方向的行业。例如电子信息行业、科研和技术服务行业、金融和法律服务相关行业等。不过大数据在行业中的应用还是会有一个逐步推进的过程,其中一个原因是会牵涉到既定的行业标准。例如在美国,大数据在医疗行业的应用就相对要慢一些。所以虽然大数据成为我们的国家战略,但这并不意味着每一个行业都该去做大数据分析。

海外网:传统企业如果希望建立自己的大数据战略,应该从哪些方面考虑战略实施的可行性?

沈艳:不是所有的行业、企业都必须考虑大数据战略,因为大数据分析有其门槛。成立时间比较久、规模比较大但又有能力快速革新的企业,可以考虑梳理自身已有的数据(无论大小),然后考虑大数据和小数据相结合,逐步推进。如果身处传统行业但是规模不够大的企业,可以考虑购买相应的服务。

最重要的是要防止一哄而上、不管是否适合自己都要赶上潮流。大数据的适用应当审慎、渐进。这主要是因为数据分析很有挑战,需要一段时间来验证其效果。

海外网:这里所说的小数据是如何定义的?

沈艳:就是相对于大数据的一些传统的数据搜集模式,包括问卷调查得到的数据、生产生活当中产生的一些数据等。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读