加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

发布时间:2020-05-29 01:50:07 所属栏目:创业 来源:站长网
导读:副标题#e# 工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的东西在眼前划过,经过标准化处理就转到下一流程这实际上是人工智能行业里的数据标注办公区一角。 由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节

例如,云测数据的“定制化”服务模式,跟的就是需求方复杂、精深而个性化的数据要求。具体到NLP,在数据采集上满足特定人物(老人、妇女、小孩)、特定场景(家居、办公、商业等)、不同方言的声音/文本数据采集;在数据标注上进行需求的对接、理解清楚场景化要求再分发尽量具体的规范指导(同样一句话在不同交流目的中可能需要标注不同的内容,例如“我没钱”在信贷服务中意味着潜在客户,在理财服务中则表达拒绝的态度)。

当然,众包模式也有它的优点,能够轻量化承载大量相对简单的数据需求,而场景化的定制模式则更专业,主要依靠自有员工和基地 ,像云测数据就在华东、华南、华北拥有自建标注基地,这种玩法显然更适合匹配客单价更高的场景化、定制化需求,NLP是典型。

2、管理流程,从“粗放制造”到“精益制造”

既然数据采集与标注很像是工厂的流水线,那么如果要提升数据的精准度,其实就如同“制造业”升级那样需要进行“粗放制造”到“精益制造”的转变,首要体现在管理流程的优化上。

无论是从平台接取任务的众包团队,还是直接对接需求方的定制化服务平台,至少,草台班子式的做法已经不适合NLP对数据的要求。

高精准度、高效率,都依赖管理流程的优化,以云测数据为例,具体做法包括这几个大方向:

标注、审核、抽检的层层把关:标注人员的结果交由另一批人进行审核,打回不合格的,最终再由质检进行抽检,大体如此,可能步骤更复杂;

人才类型的基础分类:文本、语音、图像标注人员不相互混用;

擅长场景的优先任务派发:在同等条件下,擅长对应场景的人优先派发给任务。

例会制度:如同精细化管理的制造业一样,早会、晚会、周会、月会,总结问题、提醒改进。

……

而无论如何,管理流程的事,说得再多,日常工作的落实才是最重要的。

3、职业技能,专业培训摆脱“低水平重复”

“不要门槛”意味着更低的价值,在人员个人能力上,NLP在逐渐抛弃那些“无门槛”入局的人,尤其是在特定的场景需求下。

例如,这是一个非常简单的NLP数据标注实例:

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

它的需求可能只有初中语文即可。但是,NLP的数据需求早已超过这样的标注太多。

例如,客服询问用户是否购买此商品时,“我要和家人商量一下”、“我会考虑”、“我现在不方便,你一会儿再打过来”,标注人员得准确标注出暂不购买,暂不考虑,拒绝购买或者兴趣较大等多种意图。

一方面,这依赖于平台进行的场景深挖,这也是为什么云测数据智能客服单个场景的意图标注就分为10-20个大类、上百个子类,根据业务需求可能还会有进一步的标注细分,如此数据标注可以更细化、直达需求。

另一方面,这绕不开人员能力的持续培训,把“干体力”的标注工人转化成懂一些专业的业务人员,典型的如云测数据在金融服务领域通过几个月的专业培训,培养出销售人员视角去揣测用户话语中的意图。

举例来看,在客服沟通中,用户回馈“我在开车”这短短的一个语料数据,可能需要标记出“有车一族”、“司机”、“没有明显拒绝”、“可能有兴趣”等多个标注给NLP算法,按云测数据自己的说法,其培训达到的目标,是让标注员工达到成为专业员工的水准。

显然,在NLP标注数据的初期阶段将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平后,再进行提升、提高销售转化或者服务满意度,都需要质量更高、针对特定需求更强的NLP标注数据。

值得一提的是,在NLP领域不是所有标注都能通过人员培训来解决,医疗、法律等过于专业的领域可能还是依赖专家标注(邀请医生、律师等参与标注),那是一个更复杂的故事了。

4、工具使用,持续加码“便捷化”

工欲善其事必先利其器,NLP的标注虽然不像CV有很多空间维度的数据需求,但工具提升便捷度进而提升标准效率和准确性的价值仍然不可小觑。

这方面,巨头的脚步更早,在国外,Google Fluid Annotation一度是NLP标注“最好使”的工具,国内,大厂和专业平台的工具也被广泛使用,云测数据在工具上的创新优势很明显。

总体而言,标注工具适合自己的才是最好的。这种根据定制化需求开发贴合实际需要的数据工具对场景化数据的生产,发挥着重要作用。

无论如何,持续加码“便捷化”,是一个不会停止的过程。

NLP数据产业的机会,将会是谁坐庄?

在AI领域,虽然有大厂走在前列,但市场并没有被巨头垄断,中型AI平台也常常崭露头角成为主角。以AI数据服务领域为例,像云测数据这种专注于企业服务的第三方独立平台,以客户为中心的企业基因,一直贯穿在数据交付的始终。

一个典型的表现是,高精确度的NLP数据需要以企业服务的心态与客户仔细对接需求 ,例如,用户需求的场景是什么,如果是订票,AI问答应该主要导向订票,对应的NLP数据也要往这个方向去标注。

这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议,与客户反复沟通确认达成一致后,才能真正地去作业。大厂偏重于技术架构、前沿技术开发、云服务器中心大规模并发能力等建设,很难俯下身好好完成这件事,这时候,AI数据专业化平台更有优势。

此外,影响竞争格局走向的还有数据服务的安全性。

在数据采集与标注行业,复制一份数据在技术上非常简单,也能节省大量的人力和运营成本,但给客户带来的损失却不小(尤其是被竞争对手拿到),保证数据隐私性和安全性,在AI激烈的竞争环境下几乎成为某些客户的首要决策标准。

总而言之,高专业度、高精准度、高效率、强安全才能赢得AI数据客户尤其是NLP数据客户的选择,不论巨头还是AI数据专业化平台在行业爆发式增长的关口都在努力,落实和推进了诸多动作。NLP数据产业正处在蓝海,一个不会由巨头坐庄的蓝海。

此内容为【智能相对论】原创,仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读