杨镇：从大数据与 AI 技术发展来看，跨链技术必要且必然

发布时间：2019-07-31 06:55:01 所属栏目：创业来源：猎云财经

导读：副标题#e# 在不久将来，随着AI能做的事越来越多，必然会产生需要AI直接与其他AI进行交互的场景。那么，如何保证AI与AI之间的信息交互是安全可信且可审计的呢？是通过在不同... 在不久将来，随着 AI 能做的事越来越多，必然会产生需要 AI 直接与其他 AI 进行

副标题[/!--empirenews.page--]

大数据101

在不久将来，随着AI能做的事越来越多，必然会产生需要AI直接与其他AI进行交互的场景。那么，如何保证AI与AI之间的信息交互是安全可信且可审计的呢？是通过在不同...

在不久将来，随着 AI 能做的事越来越多，必然会产生需要 AI 直接与其他 AI 进行交互的场景。那么，如何保证 AI 与 AI 之间的信息交互是安全可信且可审计的呢？是通过在不同公司之间建立数据网关？还是简单地通过客户端转发？我想真正的答案就是智能合约 + 「跨链」技术。

原文标题：《从大数据和 AI 技术的发展看跨链技术的必要性和必然性》作者：杨镇，资深软件工程师、架构师、独立讲师，具备 18 年软件开发经验，曾翻译《以太坊黄皮书》、《Solidity 官方文档》、《精通以太坊》，著有《深入以太坊智能合约开发》、《以太坊智能合约高级开发课程》、《工程师眼中的比特币和以太坊》

本文首先会对大数据和 AI 技术做一些概念扫盲，算是个小小的科普，也会涉及一些我认为有助于我们从本质上理解这些技术的关键点；我本人其实早就想聊聊这些内容，因为我见多太多人乃至很多公司都并不确切地知道这些最基本的概念，都只是在跟风或者被很多媒体、大公司的商业炒作所迷惑。所以本文的很多内容都可以看作是对从大众层面理解这些技术概念的误区的一种澄清。

当然，本文中也会聊聊我个人「略懂」的区块链以及时下热门的「跨链」话题，这也是我写本文的主要目的。希望本文能给专业的和非专业的朋友都提供一些有用的信息或者启发。

写作本文可以说是一时兴起，其中关于「跨链」的内容，灵感主要来自于前几天 Gavin Wood 博士说到的一个观点。

到底什么样的数据才是大数据

近些年，越来越多的企业、媒体在炒作「大数据（Big Data）」，我想无论是专业的技术人员还是普通大众，其实首先都要明确一个概念——到底多大的数据才能叫「大数据」？

我曾经供职于一家几乎所有中国人都知道的制造业公司，公司内部也曾说过要做大数据分析，要引入大数据概念内的技术工具和基础设施，其根据就是其业务数据量已经达到了 100 多 TB （1 TB 约等于 1 万亿字节）。但这显然忽略了一个重要因素，就是这 100 多 TB 数据是这家公司自成立以来的所有数据（20 多年的历史数据）。而 Facebook 每天产生的数据量早已超过了 10 TB，请注意，是每天。这是一个量级么？有可比性么？

所以我们谈「大数据」，最重要的指标其实在于「数据增量大」，或者叫做「数据增速大」。仅仅是历史数据量大，谈不上「大数据」，因为不管历史数据再多，他们都是「历史数据」，是不会再修改的数据，分析一次就完事了；而如果「数据增速大」，其绝对数据量自然也就会非常大，那么它对于数据分析工具和相关技术的要求也就会相应提高。

而当我们以「数据增速大」作为关键指标来筛选的时候，我们就会发现：其实目前市面上 99.9% 的公司所谓的「大数据」分析，都只是给 20 多年前就出现了的 BI （Business Inteligence，即商业智能，因为篇幅原因，这里不做展开介绍）业务换了个新马甲而已。真正能称得上是「大数据」的业务，大概只有那些全球化的数据信息服务，或者信息化的社会公共基础服务。前者的代表就是全球化的社交媒体 / 内容平台（Facebook、Twitter、微信、早期的微博）、搜索引擎（Google、百度）、高流量的电商平台（Amazon、淘宝）、高流量的支付交易网关、高活跃度的移动智能设备系统服务等互联网应用；后者的代表则是类似运营商、公共基础设施服务（比如交通、能源）等一般由政府控制的社会公共基础服务。

「大数据」的概念首次被提出是在大概 10 年之前，目前业内广泛认同的 3V 指标是衡量大数据的最主要指标，它们包括 Volume （数据量）、Variety （多样性）、Velocity （增长速度），后来有业内人士在 3V 指标的基础上增加了 Veracity （真实度）和 Value （价值），将其扩展为 5V 指标。而在大数据的多样性和高速增长特性的共同影响下，非关系型数据库（Nosql database）也得到了大量的应用和快速的进化发展。

此外值得一提的就是近年来得到飞速发展的物联网（Internet of Things）公司。基于大量的终端设备 / 传感器所采集 / 传输的数据是有可能达到「大数据」的级别的，只是目前能支持到「数亿」量级终端设备的公司还并不多，但这已经是一个可以看到的未来方向了。

显然，大数据并不是普通公司能玩儿的动的东西，说到底还是资本 / 资源的游戏。当然这里边的技术含量是有的，对技术人才的需求也是有的，只是这个方向大概真的不适合拿来创业。

要处理海量的、异构的、高速产生的数据，必然需要像诸如分布式数据仓库、数据清洗工具、数据建模工具、数据分析工具等等相关的技术产品和技术栈的支持，并不是个简单的工作；即使只考虑传统的 BI 技术栈，也是个技术活儿；市场需求是没问题的。但这些不是本文的重点，就不展开介绍了。

AI 又是什么

AI 就是人工智能（Arificial Intelligence），我想大部分人都知道了。所以这里我想再引入两个术语：神经网络（Neural Network）和专家系统（Expert System）。

目前如日中天的深度学习（Deep Learning）其实就是基于人工神经网络（Artificial Neural Network）理论发展进化而来的一套算法系统。那么神经网络是什么新鲜东西么？并不是。最早的对于用机器模拟人类神经活动的研究开始于 19 世纪末期，而现代人工神经网络的最初起源则来自于图灵在 1948 年发表的一篇论文。到上世纪八九十年代，神经网络的工程实现也有了一些进展，出现了一些雏形。近几年由 Google 引领的深度学习热潮，则是人工神经网络第一次接近实际应用的尝试，虽然它也还仅仅是一些相对比较成熟的算法而已。

目前知名度最高的深度学习项目就是 Google 的 Alpha Go 了，这个项目用在围棋领域已经造就了独一档的「AI 流」，它甚至引发了一些基础围棋理论的发展演进。但是，这个项目其实是一个目标在医疗领域应用的「专家系统」。所谓「专家系统」，就是用机器模拟人类的某个特定领域的专家来进行决策或者判断。专家系统同样不是什么新玩意儿。最早的专家系统出现于上世纪七八十年代，它们通常由两部分组成：推断引擎（Inference Engine）和知识库（Knowledge Base）。也就是基于大量的经验信息 / 数据 / 指标和其对应的结果，用算法引擎来根据新的输入数据模拟类似于领域专家基于经验进行的判断，供人参考。目前在医疗领域的一些深度学习项目，其推断的准确率已经超过了普通的医生，尤其是在一些高度依赖于对图形进行检查（对各种人眼不易识别的物理特性的判断）和一些指标相对非常明确的细分领域。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/8

尾页

穗港科研团队首建真正	邓丽君引爆虚拟人板块
比亚迪成立电池公司，	自称新势力2.0，电动屋