文|互联网那些事
大模型搬上台面之后,数据标注领域也开始变得热闹。
这种热闹,更像是第三方服务公司单方面的“狂欢”。因为2017年的人工标注师风口已经过去了,例如做文本标注的人员,现在越来越少,部分标注团队图像标注的流动率高达30%也已经是常态,有时候就连语音、视频标注都是常年对半开。
因为在当下的数据服务市场中,数据方少,数据标注的需求小,供大于求的情况严重。
直白一点来说就是,新入行的公司是很难找到可做项目的,哪怕是有小项目可接,利润空间也不会太高,这也就导致在工资低的同时项目赶,于是可能导致短时间内工作量又非常的高。
最夸张的是什么?因为门槛足够低以及数据标注与AI之间的联系,想要进入数据标注市场的人络绎不绝。
但在微调前的数据标注,其实就是一个数据流水线,枯燥,重复,机械。
网友也曾将数据标注比做旧社会拉黄包车的苦力,甚至可能还会和外卖骑士、快递小哥差着好几个段位,收入更是难望其项背。
于是,网上各大平台只要提起数据标注,一定是批评贬低占8成,夸这个行业的人只占2成。而大多夸赞的是因为握住了风口,但如果你在评论区建议别人去干标注,那你一定会被骂的狗血淋头。
数据来源:职友集
不过更有趣的是,随着自动化标注成为可能,不光个人标注师骂,就连标注师团队也在骂。
原因在于,互联网大厂不仅将数据标注纳入自己的业务范围,为了将性价比作为噱头,也在不断地比拼成本。
一、数据标注现状:低需求,高供应
某种角度上来说,数据标注行业实际上就是一个资源行业,类似于包工程,谁家能包下合适的工程就赚钱了。
但前提是得能结了款,另外赚多赚少全看人力成本了。
所以先是对于大多数,很难接到大单数据标注订单的第三方数据服务公司而言,如果再把数据标注任务转手交到数据标注师的手中,那么到手薪资低已经成为普遍的现象。
往深一点来说,市场环境差的很大部分原因,其实是因为第三方数据服务公司的“免费外包行为”。
利润层层递减,导致底层人员赚不到钱,疯狂的在互联网上吐槽这个行业。
还有更惨的,运气不好的时候还会遇到数据标注公司白嫖数据跑路的。在你没有太多标注经验的时候,承诺不需要你交任何的费用,就能获得数据标注任务。
基于没有成本负担,也就放松了警惕,哪怕是第一次数据标注不合格,你也会因为付出了第一次的努力,进而二进二出,甚至三进三出。
结果发现,不是用甲方不满意为借口拒绝给你打钱,就是直接消失。
但无论是以上何种结果,归根到底都是因为大量数据标准员,没有积累良好的数据标注渠道,进而被不靠谱的数据标注公司所欺骗。
如果换做是自己带团队做数据标注,遇到数据标注公司跑路的情况,结果只会更惨不忍睹。
不过对比实体行业的投资以及竞争力度,数据标注远远优于实体行业,利润的确是低,但仍然是有利润可言的。
据统计,2021我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。
但如果想要提高数据标注任务的稳定性,那必然需要寻求更好的出路。例如免费外包这条路跑不通,那么就采取收费的形式。
另一方面,提高对标注师的学历要求。不过,人才的进入也取决于企业是否存在利润空间。
归根到底,个人人工标注师或是人工标注团队,想要在人工标注数据服务领域获取利润,其实是很难的。
因为从长远的维度来看,只要智能化未达标,那么数据标注就一定是一个长期的过程。在算法逐渐复杂化以及人工标注成本之下,自动化标注自然会成为行业追求。
更何况,是在算力环节厂商以及大模型厂商同样想要瓜分的领域。
二、人工数据标注,被市场踢出局?
站在各大厂商的角度,有了技术红利之后进入数据标注领域,他们还能释放一部分成本优势给客户,降低单位数据标注任务的价格。
总的来说,行业从劳动密集型向技术密集型转变是一个必然的过程。
一方面,不同于传统深度学习算法,大模型场景下数据处理流程中,在数据需求量最大的预训练环节,使用的多是无标注或弱监督标注数据。
更多的人工标注需求出现在预训练环节之后的微调(SFT)以及基于人类反馈的强化学习(RLHF)阶段。
微调和对齐时,人工标注的质量会极大影响模型在生成内容时的智能水平,这对人工标注的数据质量提出了更高的要求。
简单来说就是,在微调阶段的标注师,是需要体系内的业务专家们去标注金融相关的数据。
比如早期单纯只标注“语音转写文本”的相对简单的作业要求,现在已经增加了很多其他维度,比如对于声音边界的精细度的要求,以前要求的可能是粗颗粒度,但现在动辄要求精确到毫秒级。
比如出于对安全考量,车企对数据标注的准确度要求通常在99%以上,这实际上也大幅提高了对数据服务商的要求门槛。
再比如对于在语音中出现的各类不同的其他声音的标注,以前可能只需要标注出来某些噪音,现在的要求则可能是还要对噪音进行更多维度的分类。
更进一步来说,随着语音数据量的日渐增多且复杂,对人工标注也存在高强度。
另外,在医疗领域从事传统和常规的工作,固然也是很多人梦寐以求的,但同领域的数据标注,也同样潜力巨大。
据媒体报道,截至今年3月,百度山西人工智能数据产业基地中,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后;字节跳动在北京、天津、济南、武汉各地,也招募了4万名数据标注师;腾讯更是直接把平台放到了线上,让标注师变成了一种“全民兼职”,称为“众包”。
可以预见的是,在未来更多更广阔的垂直领域里,有专业经验、并且熟悉数据标注工作的人群,都将是亟需的人才。
不过,也仅限于真正拥有专业经验的技术人才,以及自动标注之后的审核岗位,但需求有限。
三、自动化标注进入淘汰赛?
在大厂入局之下,不只是数据标注团队,那些单纯依靠人工标注的企业也很难存活。原因在于,今年数据标注市场或许会加速向技术型玩家集中,市场正开启淘汰赛。
最简单的理解是,由于看中了大模型训练的算力市场,不少模型提供商提供了AI训练全家桶,数据标注被纳入了大厂的服务范围,这可能正加剧行业的竞争。
不过从另一方面考虑,即便大厂内部建的数据标注平台,因为很难应对市场多样化的数据标注任务需求,而存在局限。
但最初被划为算力环节的企业,也一样会对自动化标注虎视眈眈。例如,原本处于数据服务下游的算法研发平台及科技企业,自身也在尝试把大模型技术用到了自身的数据标注场景。
今年4月,海康威视在一季度的财报电话会上向投资者答疑时也提到,他们也在将自研AI技术用到自动化标注场景。
原因在于,此前被行业里划为应用开发或算法研发环节的海康、商汤等企业,现在他们也需要一些智能化工具和应用来提升数据标注效率。
而商汤科技就是最好的例子。目前,商汤科技在自动驾驶场景基于视觉大模型技术,降低了人工数据标注的数量,大幅提升了数据标注效率。
随着机器学习模型的发展,自动化数据标注的准确性提高,可以使用模型来辅助人工标注,比如模型预处理数据再发送给标注师,或人类作为审核员,审核并纠正模型给出的标注结果等等。
与纯手动标记相比,AI辅助标注加快数据标注的速度。目前,scale Al等数据标注公司都在努力减少数据标注过程中的人工参与比例。
但自动标注是否能够完全代替人工,目前尚未能够确定。
市场的发展总是处于不确定中,未来可能会诞生新的标注场景或需求,或许会继续基于人工标注,才能获得更为准确的数据集,来给到智能机器良好的自测需求,这些我们都不得而知。
但是能够预测的是,如果人工标注和“自动化+人工”的标注方式在未来 5-10 年内仍然会存在,那么在拥有一定数据标注渠道以及标注专业人员的数据服务公司,仍然有机会在这个市场中分得一杯羹。
不过,要是想在未来也能够脱颖而出,规模化所带来的效率提升,一定是关键因素。
但如果数据项目订单被挤压,规模化也就同等于“施工队生意”。那些以“数据标注业务”为核心的数据服务公司,最大的风险也就变成了人工成本。
参考:
蓝鲸财经:数据标注,从蓝领到白领
华经产业研究院:2022年中国数据标注行业市场规模、市场结构及重点企业分析
语音之家:Scale AI:大模型还需要数据标注吗?
机器人库:数据标注师:站在了人工智能风口,却为5K月薪挣扎?
评论