又来抢大数据饭碗？AWS发布SageMaker：省略数据清洗、建模、调参等步骤

发布时间：2018-04-03 04:28:01 所属栏目：大数据来源：站长网

导读：美国拉斯维加斯时间2017年11月29日上午，AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内，Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机；一套用于开放并部署

副标题[/!--empirenews.page--]

美国拉斯维加斯时间2017年11月29日上午，AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内，Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机；一套用于开放并部署机器学习算法的SageMaker平台；外加实时视频识别、文字翻译等多项应用层服务。

据了解，作为全场最大亮点的SageMaker平台，真正做到了“默默秒杀全场”的强大功能：除了免去了开发者进行数据清洗、建模的麻烦事儿，甚至还可以把开发者最头疼的调参优化交给机器处理。

显而易见，亚马逊公司希望各企业客户能够更好地运用人工智能技术——当然最重要的是，使用由亚马逊出售的人工智能工具。

通过本次大会公布的这一整套人工智能解决方案，亚马逊方面已经明确表示，希望能够乘这股人工智能的繁盛东风进一步拓展收入规模。与此同时，这批声明的发布也标志着亚马逊与同样拥有自家AI企业解决方案的谷歌在这一领域成为了竞争对手。

Amazon SageMaker

正如本文开头所说，这也许是本次re:Invent上发布的最大杀器，也可能是自各类开源机器学习框架流行以来在AI领域出现的最大杀器（如果使用体验真的如Andy Jassy所描述的那样好的话）：普通开发者也想用机器学习来玩自己的数据，但是数据清洗、建模、各种试错太难太花时间，把开发者都吓跑了。SageMaker的目标是，开发者只需要关心自己输入什么数据，自己想用什么框架和什么算法，其他的各种参数调优什么的脏活儿就让机器自己用机器学习来做，一键直达式机器学习服务，开发者值得拥有。

让我们来看看这个可能会让大数据工程师“失业”的神器到底有何玄机？

Amazon SageMaker是一项全托管端到端机器学习服务，可帮助数据科学家、开发人员以及机器学习专家快速构建、训练并托管规模化机器学习模型。它的出现将显著加速一切机器学习工作，同时帮助大家快速将机器学习元素添加至生产应用程序当中。SageMaker**支持当前机器学习行业中最为流行的各类框架**（包括谷歌TensorFlow、Facebook Caffe2、Pytorch以及MXNet等），且允许开发者从查找必要数据起步对其AI模型进行训练，而后将成果发送给客户——整个流程皆可在此程序内实现。

Amazon SageMaker由以下三大主要部分组成:

创作（Authoring）：无需进行任何设置，使用Jupyter Notebook IDE就能进行数据探索、清洁与预处理。你可以在常规实例类型或GPU驱动型实例当中运行此类工作负载。模型训练：一项分布式模型构建、训练与验证服务。你可以利用其中的内置常规监督与无监督学习算法及框架，或者利用Docker容器创建属于自己的训练机制。其模型训练规模可囊括数十个实例，以支持模型构建加速。训练数据读取自S3，训练后的模型成果亦可存放在S3存储桶内。最终得出的模型结果为数据相关模型参数，而非模型当中进行推理的代码。将关注点分开之后，开发人员能够更轻松地将Amazon SageMaker训练出的模型部署至其它平台（例如IoT设备）。模型托管：模型托管服务可配合HTTP端点以调用模型进行实时推理。这些端点可进行规模扩展，从而支持实际流量；开发人员也可以同时对多套模型进行A/B测试。此外，你也可以使用内置的SDK构建这些端点，或者选择Docker镜像提供自己的配置选项。

上述组成部分皆可独立使用，这意味着Amazon SageMaker将能够轻松填补现有流程中的空白环节。换句话来说，当开发人员以端到端方式使用该服务时，将能够享受到由其提供的强大功能。

作为AWS免费项目的一部分，大家无需任何投入即可马上开始使用Amazon SageMaker。在前两个月中，用户每月可获得250个小时的t2.medium记事本实例使用额度，50个小时的m4.xlarge训练用实例使用额度，外加125个小时的m4.xlarge托管用实例使用额度。在免费范围之外，具体计费标准因实际服务区而定，但总体成本包含每秒实例使用、每GB存储容量使用以及每GB数据传入/传出等因素。（小编注：大家可以先试用之后看看Amazon SageMaker是否真如Jassy所说的这么智能。）

AWS官方博客上对如何使用SageMaker提供了一份简易指南，下面截取并翻译了构建机器学习流程的部分，迫不及待的小伙伴们到官网查看完整的操作方法：https://aws.amazon.com/cn/blogs/aws/sagemaker/

SageMaker使用指南

作为示例，这里假定我们需要构建、训练并部署一套基于Apache MXNet的图像分类器。这里我们使用Gluon语言、CIFAR-10数据集，外加ResNet V2模型架构。

从Jupyter Notebook开始创作

在创建记事本实例时，其会启动一个配备有Anaconda软件包与常规深度学习库、具有5GB机器学习存储分卷，且包含多种示例记事本算法显示机制的机器学习计算实例。开发人员可以选择配置其中的VPC支持能力，从而在自己的VPC内创建ENI以简化并保护对资源的访问。

在实例配置完成之后，我们就可以打开记事本并开始编写代码！

模型训练

为了简洁起见，我们在这里忽略实际模型训练代码。不过对于任何Amazon SageMaker常规框架训练工作，您都可以通过以下方式建立起一套简单的训练接口：

def train( channel_input_dirs, hyperparameters, output_data_dir, model_dir, num_gpus, hosts, current_host): passdef save(model): pass

这里，我们打算在Amazon SageMaker基础设施中的4个ml.p2.xlarge实例之上创建一项分布式训练任务。顺带一提，这里已经将所有必要的数据下载到本地。

import sagemakerfrom sagemaker.mxnet import MXNetm = MXNet("cifar10.py", role=role, train_instance_count=4, train_instance_type="ml.p2.xlarge", hyperparameters={'batch_size': 128, 'epochs': 50, 'learning_rate': 0.1, 'momentum': 0.9})

现在，我们已经构建起模型训练任务，并可通过以下命令为其馈送数据：m.fit("s3://randall-likes-sagemaker/data/gluon-cifar10").

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建