加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

行业高质量AI数据如何炼成 揭秘云测数据的取胜之法

发布时间:2020-09-28 08:18:24 所属栏目:大数据 来源:网络整理
导读:在数据隐私安全方面,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行
副标题[/!--empirenews.page--]

AI加速落地的大背景下,作为人工智能产业落地重要的环节,AI数据标注越来越受到业界的关注,并在发生着很大的变化。

不久前的服贸会上,数据标注领域的头部企业云测数据首次对外发布了一项标准,其AI数据项目的最高交付精准度达到了99.99%,这是一个新的行业纪录。对此,有自媒体“曾响铃”评论认为,AI数据标注已经由“劳动密集”进入“技能密集”时代。

在AI数据产业中,数据精准度=验收合格数量/全部数量,这意味极高的精准度不仅要满足一些客观标准,还需要与AI项目方的需求深度契合,通过基于需求的验收过程。

事实上,对AI数据标注这种与制造业在很多地方相似的产业而言,更高的精准度的打造过程,就如同制造业的“精益制造”一样,在多个方面有着发展方式的契合,只不过一个交付数据服务,一个产出实体产品。

这种契合,从行业头部企业的动作看,包括四个方面。

业务平台:应对复杂的AI数据交接和作业,出现线上自动化“流水线”

制造业的精益制造首先是“流水线”的自动化、智能化升级,引入更多精密的工具或机械,为产品的精益打磨提供了生产环境基础。

数据标注也类似,粗放式的业务平台越来越无法承接复杂的AI数据交接和作业,在这种背景下,线上的自动化“流水线”开始出现。

以往,数据标注过程的“线下”痕迹浓厚,尤其是数据导入和导出,硬碟拷贝、交接的“原始模式”不时出现。

为了提升效率和安全,做到短时间无缝对接,以云测数据为代表的企业探索出线上“流水线”业务平台化模式。具体来说,就是根据AI企业的自身数据处理流程,完成标准化API接口的流程嵌入,数据在线上接入,完成作业后从线上输出,中间有模板化的任务创建与责任安排,支持不同标注类型和标注方法。

这个过程,对应到制造业,其实就是“物料进入、找到众多产线中合适的那一条并安排好生产工人、产品输出”的过程。在线上,数据标注已经做到了数据进入、标注、交付的云上无缝连接过程。

这其中,对数据标注“精益制造”价值最为明显的可能是“生产工具”的优化,工具能力的提升,大幅提升了数据标注的效率和精准度,这就好比流水线上功能丰富的自动化机械臂能够帮助企业大大提升效率和质量一样。

以云测数据为代表的企业开发的工具为案例,目前来看,工具对数据标注的价值有这三个体现:

一是直接的操作辅助,例如对人脸进行26点、54点、96点、206点的人脸关键点标注、贴合度在3像素以内的特定任务关键点追踪,这使得标注员的操作能够更加精细化,且拥有不错的效率。

二是特殊数据的操作辅助,例如自动驾驶中激光雷达形成的3D点云数据不同于摄像头形成的2D图像数据,标注起来更有难度也更可能出现偏差,这时候,融合标注工具(把3D点云数据和2D图像数据结合在一起对照)的价值就体现出来。

三是数据标注的纠错保障,这类似于“精益制造”中人工质检前的机器自动质检,在数据标注过程中,工具根据AI项目需求设定查错规则,保障标注的精准度(例如,一个三米高的物体标注为人体就错了)

当然,工具质检只是一种辅助,在数据标注的“精益制造”过程中,人工质检(抽检)同样必不可少。云测数据不仅在标注流程上实现了正规化和科学化,设计了从创建任务、分配任务、标注流转,还完善了了从质检/抽检环节到最后的验收的管理流程。

数据作业:应对AI落地的深度需求,出现“数据工艺”般的精细化作业

生产工艺是“精益制造”的核心之一,工艺越好,产品往往更为优质,也更掌握市场的话语权。在“流水线”生产环境基础上,随着AI落地需求的加深,AI数据标注开始出现可以称之为“数据工艺”的类似精细化作业过程,99.99%的精准度本身就是“数据工艺”的结果。

在云测数据的日常作业中,可以发现很多这种“数据工艺”般的做法,例如更丰富的数据标注类型,“线段”这种看起来简单的标注对象也分出了折线、曲线、贝塞尔曲线等。

此外,如同制造业不断积累工艺经验,逐步提升工艺水准生产出更高等级的产品一样,数据标注也存在一个经验积累的过程来提升“数据工艺”水准,例如,工业中的大量看起来差不多的零件的标注,做到更细节层面才能区分出两个型号类似的螺丝;零售行业大量相似的SKU,需要从品牌、标签等多种细化角度来标注,帮助算法识别。

总的看来,对AI数据的复杂需求是促使数据标注朝着“数据工艺”方向发展的直接原因。

当下的AI数据呈现三个特征,一是由于AI产品落地场景的复杂性导致数据场景需求的多元化,如光线强度、拍摄角度、噪声要求、室内室外等;二是同类数据表现出样本多样性,仅就声音的数据,可能就包括年龄、性别、口音等差别;三是针对同一应用目标的数据多维化,例如智能驾驶就可能同时需要摄像头、激光雷达、超声波雷达等不同传感器产生的数据。

很显然,在这种背景下,AI发展初期那种直接应用或者购买成品“数据集”的做法行不通了,它们可以帮助算法快速成型,但却难以支撑更多样化的AI落地需求。

于是,“数据工艺”般的精细化作业对数据标注的需求自然而然就超出了单纯数据标注的业务范畴,必然要整合上游数据采集这个关键环节。 可以看到,以云测数据为代表的企业都在大力提升场景化数据采集的能力。帮助客户还原落地场景所需要的AI数据,从源头保证AI数据的质量,才能更好的应用于AI产业化的深度落地。

或许正因为这样的原因,可以看到,云测数据在发布了最高项目交付99.99%精准度的同时,为了贴合实际场景、帮助更多行业实现“AI产品更快更好的落地”, 云测数据结合自身的服务能力积累和行业专业性,还推出了智慧城市、智能家居、智能驾驶、智慧金融四个场景下的“AI训练数据服务解决方案”。

在这些整合了数据采集与标注的场景AI数据解决方案中,可以发现更明显的“数据工艺”痕迹。

例如,在户外场景中,摄像头囊括了大量的行人、机动车、自行车等道路场景数据,但智慧城市的AI应用可能需要识别人流检测、突发事件等长尾场景数据。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读