正在阅读:

人工+自动化,数据标注最严峻的时刻要到了

扫一扫下载界面新闻APP

人工+自动化,数据标注最严峻的时刻要到了

枯燥,重复,机械。

文|互联网那些事

大模型搬上台面之后,数据标注领域也开始变得热闹。

这种热闹,更像是第三方服务公司单方面的“狂欢”。因为2017年的人工标注师风口已经过去了,例如做文本标注的人员,现在越来越少,部分标注团队图像标注的流动率高达30%也已经是常态,有时候就连语音、视频标注都是常年对半开。

因为在当下的数据服务市场中,数据方少,数据标注的需求小,供大于求的情况严重。

直白一点来说就是,新入行的公司是很难找到可做项目的,哪怕是有小项目可接,利润空间也不会太高,这也就导致在工资低的同时项目赶,于是可能导致短时间内工作量又非常的高。

最夸张的是什么?因为门槛足够低以及数据标注与AI之间的联系,想要进入数据标注市场的人络绎不绝。

但在微调前的数据标注,其实就是一个数据流水线,枯燥,重复,机械。

网友也曾将数据标注比做旧社会拉黄包车的苦力,甚至可能还会和外卖骑士、快递小哥差着好几个段位,收入更是难望其项背。

于是,网上各大平台只要提起数据标注,一定是批评贬低占8成,夸这个行业的人只占2成。而大多夸赞的是因为握住了风口,但如果你在评论区建议别人去干标注,那你一定会被骂的狗血淋头。

数据来源:职友集

不过更有趣的是,随着自动化标注成为可能,不光个人标注师骂,就连标注师团队也在骂。

原因在于,互联网大厂不仅将数据标注纳入自己的业务范围,为了将性价比作为噱头,也在不断地比拼成本。

一、数据标注现状:低需求,高供应

某种角度上来说,数据标注行业实际上就是一个资源行业,类似于包工程,谁家能包下合适的工程就赚钱了。

但前提是得能结了款,另外赚多赚少全看人力成本了。

所以先是对于大多数,很难接到大单数据标注订单的第三方数据服务公司而言,如果再把数据标注任务转手交到数据标注师的手中,那么到手薪资低已经成为普遍的现象。

往深一点来说,市场环境差的很大部分原因,其实是因为第三方数据服务公司的“免费外包行为”。

利润层层递减,导致底层人员赚不到钱,疯狂的在互联网上吐槽这个行业。

还有更惨的,运气不好的时候还会遇到数据标注公司白嫖数据跑路的。在你没有太多标注经验的时候,承诺不需要你交任何的费用,就能获得数据标注任务。

基于没有成本负担,也就放松了警惕,哪怕是第一次数据标注不合格,你也会因为付出了第一次的努力,进而二进二出,甚至三进三出。

结果发现,不是用甲方不满意为借口拒绝给你打钱,就是直接消失。

但无论是以上何种结果,归根到底都是因为大量数据标准员,没有积累良好的数据标注渠道,进而被不靠谱的数据标注公司所欺骗。

如果换做是自己带团队做数据标注,遇到数据标注公司跑路的情况,结果只会更惨不忍睹。

不过对比实体行业的投资以及竞争力度,数据标注远远优于实体行业,利润的确是低,但仍然是有利润可言的。

据统计,2021我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。

但如果想要提高数据标注任务的稳定性,那必然需要寻求更好的出路。例如免费外包这条路跑不通,那么就采取收费的形式。

另一方面,提高对标注师的学历要求。不过,人才的进入也取决于企业是否存在利润空间。

归根到底,个人人工标注师或是人工标注团队,想要在人工标注数据服务领域获取利润,其实是很难的。

因为从长远的维度来看,只要智能化未达标,那么数据标注就一定是一个长期的过程。在算法逐渐复杂化以及人工标注成本之下,自动化标注自然会成为行业追求。

更何况,是在算力环节厂商以及大模型厂商同样想要瓜分的领域。

二、人工数据标注,被市场踢出局?

站在各大厂商的角度,有了技术红利之后进入数据标注领域,他们还能释放一部分成本优势给客户,降低单位数据标注任务的价格。

总的来说,行业从劳动密集型向技术密集型转变是一个必然的过程。

一方面,不同于传统深度学习算法,大模型场景下数据处理流程中,在数据需求量最大的预训练环节,使用的多是无标注或弱监督标注数据。

更多的人工标注需求出现在预训练环节之后的微调(SFT)以及基于人类反馈的强化学习(RLHF)阶段。

微调和对齐时,人工标注的质量会极大影响模型在生成内容时的智能水平,这对人工标注的数据质量提出了更高的要求。

简单来说就是,在微调阶段的标注师,是需要体系内的业务专家们去标注金融相关的数据。

比如早期单纯只标注“语音转写文本”的相对简单的作业要求,现在已经增加了很多其他维度,比如对于声音边界的精细度的要求,以前要求的可能是粗颗粒度,但现在动辄要求精确到毫秒级。

比如出于对安全考量,车企对数据标注的准确度要求通常在99%以上,这实际上也大幅提高了对数据服务商的要求门槛。

再比如对于在语音中出现的各类不同的其他声音的标注,以前可能只需要标注出来某些噪音,现在的要求则可能是还要对噪音进行更多维度的分类。

更进一步来说,随着语音数据量的日渐增多且复杂,对人工标注也存在高强度。

另外,在医疗领域从事传统和常规的工作,固然也是很多人梦寐以求的,但同领域的数据标注,也同样潜力巨大。

据媒体报道,截至今年3月,百度山西人工智能数据产业基地中,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后;字节跳动在北京、天津、济南、武汉各地,也招募了4万名数据标注师;腾讯更是直接把平台放到了线上,让标注师变成了一种“全民兼职”,称为“众包”。

可以预见的是,在未来更多更广阔的垂直领域里,有专业经验、并且熟悉数据标注工作的人群,都将是亟需的人才。

不过,也仅限于真正拥有专业经验的技术人才,以及自动标注之后的审核岗位,但需求有限。

三、自动化标注进入淘汰赛?

在大厂入局之下,不只是数据标注团队,那些单纯依靠人工标注的企业也很难存活。原因在于,今年数据标注市场或许会加速向技术型玩家集中,市场正开启淘汰赛。

最简单的理解是,由于看中了大模型训练的算力市场,不少模型提供商提供了AI训练全家桶,数据标注被纳入了大厂的服务范围,这可能正加剧行业的竞争。

不过从另一方面考虑,即便大厂内部建的数据标注平台,因为很难应对市场多样化的数据标注任务需求,而存在局限。

但最初被划为算力环节的企业,也一样会对自动化标注虎视眈眈。例如,原本处于数据服务下游的算法研发平台及科技企业,自身也在尝试把大模型技术用到了自身的数据标注场景。

今年4月,海康威视在一季度的财报电话会上向投资者答疑时也提到,他们也在将自研AI技术用到自动化标注场景。

原因在于,此前被行业里划为应用开发或算法研发环节的海康、商汤等企业,现在他们也需要一些智能化工具和应用来提升数据标注效率。

而商汤科技就是最好的例子。目前,商汤科技在自动驾驶场景基于视觉大模型技术,降低了人工数据标注的数量,大幅提升了数据标注效率。

随着机器学习模型的发展,自动化数据标注的准确性提高,可以使用模型来辅助人工标注,比如模型预处理数据再发送给标注师,或人类作为审核员,审核并纠正模型给出的标注结果等等。

与纯手动标记相比,AI辅助标注加快数据标注的速度。目前,scale Al等数据标注公司都在努力减少数据标注过程中的人工参与比例。

但自动标注是否能够完全代替人工,目前尚未能够确定。

市场的发展总是处于不确定中,未来可能会诞生新的标注场景或需求,或许会继续基于人工标注,才能获得更为准确的数据集,来给到智能机器良好的自测需求,这些我们都不得而知。

但是能够预测的是,如果人工标注和“自动化+人工”的标注方式在未来 5-10 年内仍然会存在,那么在拥有一定数据标注渠道以及标注专业人员的数据服务公司,仍然有机会在这个市场中分得一杯羹。

不过,要是想在未来也能够脱颖而出,规模化所带来的效率提升,一定是关键因素。

但如果数据项目订单被挤压,规模化也就同等于“施工队生意”。那些以“数据标注业务”为核心的数据服务公司,最大的风险也就变成了人工成本。

参考:

蓝鲸财经:数据标注,从蓝领到白领

华经产业研究院:2022年中国数据标注行业市场规模、市场结构及重点企业分析

语音之家:Scale AI:大模型还需要数据标注吗?

机器人库:数据标注师:站在了人工智能风口,却为5K月薪挣扎?

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

人工+自动化,数据标注最严峻的时刻要到了

枯燥,重复,机械。

文|互联网那些事

大模型搬上台面之后,数据标注领域也开始变得热闹。

这种热闹,更像是第三方服务公司单方面的“狂欢”。因为2017年的人工标注师风口已经过去了,例如做文本标注的人员,现在越来越少,部分标注团队图像标注的流动率高达30%也已经是常态,有时候就连语音、视频标注都是常年对半开。

因为在当下的数据服务市场中,数据方少,数据标注的需求小,供大于求的情况严重。

直白一点来说就是,新入行的公司是很难找到可做项目的,哪怕是有小项目可接,利润空间也不会太高,这也就导致在工资低的同时项目赶,于是可能导致短时间内工作量又非常的高。

最夸张的是什么?因为门槛足够低以及数据标注与AI之间的联系,想要进入数据标注市场的人络绎不绝。

但在微调前的数据标注,其实就是一个数据流水线,枯燥,重复,机械。

网友也曾将数据标注比做旧社会拉黄包车的苦力,甚至可能还会和外卖骑士、快递小哥差着好几个段位,收入更是难望其项背。

于是,网上各大平台只要提起数据标注,一定是批评贬低占8成,夸这个行业的人只占2成。而大多夸赞的是因为握住了风口,但如果你在评论区建议别人去干标注,那你一定会被骂的狗血淋头。

数据来源:职友集

不过更有趣的是,随着自动化标注成为可能,不光个人标注师骂,就连标注师团队也在骂。

原因在于,互联网大厂不仅将数据标注纳入自己的业务范围,为了将性价比作为噱头,也在不断地比拼成本。

一、数据标注现状:低需求,高供应

某种角度上来说,数据标注行业实际上就是一个资源行业,类似于包工程,谁家能包下合适的工程就赚钱了。

但前提是得能结了款,另外赚多赚少全看人力成本了。

所以先是对于大多数,很难接到大单数据标注订单的第三方数据服务公司而言,如果再把数据标注任务转手交到数据标注师的手中,那么到手薪资低已经成为普遍的现象。

往深一点来说,市场环境差的很大部分原因,其实是因为第三方数据服务公司的“免费外包行为”。

利润层层递减,导致底层人员赚不到钱,疯狂的在互联网上吐槽这个行业。

还有更惨的,运气不好的时候还会遇到数据标注公司白嫖数据跑路的。在你没有太多标注经验的时候,承诺不需要你交任何的费用,就能获得数据标注任务。

基于没有成本负担,也就放松了警惕,哪怕是第一次数据标注不合格,你也会因为付出了第一次的努力,进而二进二出,甚至三进三出。

结果发现,不是用甲方不满意为借口拒绝给你打钱,就是直接消失。

但无论是以上何种结果,归根到底都是因为大量数据标准员,没有积累良好的数据标注渠道,进而被不靠谱的数据标注公司所欺骗。

如果换做是自己带团队做数据标注,遇到数据标注公司跑路的情况,结果只会更惨不忍睹。

不过对比实体行业的投资以及竞争力度,数据标注远远优于实体行业,利润的确是低,但仍然是有利润可言的。

据统计,2021我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。

但如果想要提高数据标注任务的稳定性,那必然需要寻求更好的出路。例如免费外包这条路跑不通,那么就采取收费的形式。

另一方面,提高对标注师的学历要求。不过,人才的进入也取决于企业是否存在利润空间。

归根到底,个人人工标注师或是人工标注团队,想要在人工标注数据服务领域获取利润,其实是很难的。

因为从长远的维度来看,只要智能化未达标,那么数据标注就一定是一个长期的过程。在算法逐渐复杂化以及人工标注成本之下,自动化标注自然会成为行业追求。

更何况,是在算力环节厂商以及大模型厂商同样想要瓜分的领域。

二、人工数据标注,被市场踢出局?

站在各大厂商的角度,有了技术红利之后进入数据标注领域,他们还能释放一部分成本优势给客户,降低单位数据标注任务的价格。

总的来说,行业从劳动密集型向技术密集型转变是一个必然的过程。

一方面,不同于传统深度学习算法,大模型场景下数据处理流程中,在数据需求量最大的预训练环节,使用的多是无标注或弱监督标注数据。

更多的人工标注需求出现在预训练环节之后的微调(SFT)以及基于人类反馈的强化学习(RLHF)阶段。

微调和对齐时,人工标注的质量会极大影响模型在生成内容时的智能水平,这对人工标注的数据质量提出了更高的要求。

简单来说就是,在微调阶段的标注师,是需要体系内的业务专家们去标注金融相关的数据。

比如早期单纯只标注“语音转写文本”的相对简单的作业要求,现在已经增加了很多其他维度,比如对于声音边界的精细度的要求,以前要求的可能是粗颗粒度,但现在动辄要求精确到毫秒级。

比如出于对安全考量,车企对数据标注的准确度要求通常在99%以上,这实际上也大幅提高了对数据服务商的要求门槛。

再比如对于在语音中出现的各类不同的其他声音的标注,以前可能只需要标注出来某些噪音,现在的要求则可能是还要对噪音进行更多维度的分类。

更进一步来说,随着语音数据量的日渐增多且复杂,对人工标注也存在高强度。

另外,在医疗领域从事传统和常规的工作,固然也是很多人梦寐以求的,但同领域的数据标注,也同样潜力巨大。

据媒体报道,截至今年3月,百度山西人工智能数据产业基地中,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后;字节跳动在北京、天津、济南、武汉各地,也招募了4万名数据标注师;腾讯更是直接把平台放到了线上,让标注师变成了一种“全民兼职”,称为“众包”。

可以预见的是,在未来更多更广阔的垂直领域里,有专业经验、并且熟悉数据标注工作的人群,都将是亟需的人才。

不过,也仅限于真正拥有专业经验的技术人才,以及自动标注之后的审核岗位,但需求有限。

三、自动化标注进入淘汰赛?

在大厂入局之下,不只是数据标注团队,那些单纯依靠人工标注的企业也很难存活。原因在于,今年数据标注市场或许会加速向技术型玩家集中,市场正开启淘汰赛。

最简单的理解是,由于看中了大模型训练的算力市场,不少模型提供商提供了AI训练全家桶,数据标注被纳入了大厂的服务范围,这可能正加剧行业的竞争。

不过从另一方面考虑,即便大厂内部建的数据标注平台,因为很难应对市场多样化的数据标注任务需求,而存在局限。

但最初被划为算力环节的企业,也一样会对自动化标注虎视眈眈。例如,原本处于数据服务下游的算法研发平台及科技企业,自身也在尝试把大模型技术用到了自身的数据标注场景。

今年4月,海康威视在一季度的财报电话会上向投资者答疑时也提到,他们也在将自研AI技术用到自动化标注场景。

原因在于,此前被行业里划为应用开发或算法研发环节的海康、商汤等企业,现在他们也需要一些智能化工具和应用来提升数据标注效率。

而商汤科技就是最好的例子。目前,商汤科技在自动驾驶场景基于视觉大模型技术,降低了人工数据标注的数量,大幅提升了数据标注效率。

随着机器学习模型的发展,自动化数据标注的准确性提高,可以使用模型来辅助人工标注,比如模型预处理数据再发送给标注师,或人类作为审核员,审核并纠正模型给出的标注结果等等。

与纯手动标记相比,AI辅助标注加快数据标注的速度。目前,scale Al等数据标注公司都在努力减少数据标注过程中的人工参与比例。

但自动标注是否能够完全代替人工,目前尚未能够确定。

市场的发展总是处于不确定中,未来可能会诞生新的标注场景或需求,或许会继续基于人工标注,才能获得更为准确的数据集,来给到智能机器良好的自测需求,这些我们都不得而知。

但是能够预测的是,如果人工标注和“自动化+人工”的标注方式在未来 5-10 年内仍然会存在,那么在拥有一定数据标注渠道以及标注专业人员的数据服务公司,仍然有机会在这个市场中分得一杯羹。

不过,要是想在未来也能够脱颖而出,规模化所带来的效率提升,一定是关键因素。

但如果数据项目订单被挤压,规模化也就同等于“施工队生意”。那些以“数据标注业务”为核心的数据服务公司,最大的风险也就变成了人工成本。

参考:

蓝鲸财经:数据标注,从蓝领到白领

华经产业研究院:2022年中国数据标注行业市场规模、市场结构及重点企业分析

语音之家:Scale AI:大模型还需要数据标注吗?

机器人库:数据标注师:站在了人工智能风口,却为5K月薪挣扎?

本文为转载内容,授权事宜请联系原著作权人。