AI标注公司生态调查：一半本科生、宝妈最好用

时间：2023-09-09 09:29:49 来源：微信公众号：娱乐资本论

“贫困山村里，没上过大学的女人们在喂养AI。”

(资料图片)

“富士康工人流向AI标注厂。”

“跟AI打工，贫困县也能月薪7000。”

在“有多少智能，就有多少人工”的AI时代，有一批人通过采集现实世界的图像、视频、文字等信息，清洗标注后将数据转化为代码输送给机器，从事这份工作的人叫做数据标注员。

打开关于AI数据标注行业的新闻，我们随处可见上述标题。低门槛、劳动密集、高度程式化、标准操作流水线，成为了数据标注工人身上*的标签特征。而在国际上，因为有大量的非洲肯尼亚人在做相关工作，他们又有一个灰色昵称，“肯尼亚人”。

而这，也与数据公司的甲方——百度、阿里等，致力于要用技术改变世界的大公司们形成了鲜明的对比。大洋彼岸，数据标注服务公司Scale AI市值73亿美元，彰显了数据公司的资本潜力，也让我们看到了数据公司走向百亿美金估值的可能性。

随着AIGC时代的到来，数据标注员的工作有何改变？上述新闻标签是否是他们的行业常态？数据标注行业现在存在哪些问题？未来又有哪些发展前景？更重要的是，他们展现了AI行业背后的什么样的困难？

带着这些问题，娱乐资本论走进了四家数据标注公司，发现了如下的行业现状：

VOL.1.标注行业对员工的素质要求越来越高，本科生占比高

VOL.2.兼职的标注人员中宝妈较稳定，更受欢迎

VOL.3.垂类行业的数据标注订单增多，对垂类标注人才的需求量增多

VOL.4.底层数据标注员的工资与*工资标准类似

VOL.5.AI只带来了短期的订单增加，小型数据标注公司很卷

VOL.6.多数数据标注公司没有构建自己的数据壁垒

VOL.7.数据公司的发展趋势：①、利用AI技术降本增效 ②、专注于某一垂类的数据 ③、往产业链上游走，做数据采集、合成等

1、本科生越来越多，宝妈更受喜爱，监狱不方便

“我们不是富士康的流水线模式。”

当被问及公司的员工现状时，几家数据公司都给出了类似的回答。

龙猫数据成立于2014年，累计服务了60余家主机厂和自动驾驶公司，为客户提供整体的数据解决方案。

今年AIGC爆火后，龙猫接到了很多图文标注、视频标注需求的订单，会有很多多模态应用场景，比如车内座舱的文娱软件等。龙猫副总裁胡邱飞向娱乐资本论指出“这要求标注人员能理解大模型的应用，而大模型会考察几乎所有领域的通识类知识。此外，标注内容要和客户的模型价值尽量贴近。所以这也要求我们找的标注人员绝大多数学历在本科以上。”

针对垂直领域，龙猫则会配备专业领域人员，比如为数学相关大模型招聘会高等数学的人，“如果不是这专业的人，你根本看不出细节上的区别。”

成都的汇众天智总经理骆靖元也在AIGC浪潮后提高了对员工的素质要求，“三四年前对员工的素质要求还不高，但是现在甲方对质量和效率的要求提高了。公司之前90%是大专，现在本科占到了一半，甚至有研究生。”

2018年，做软件的丁一峻，在朋友的引荐下接到了阿里数据标注的订单，2019年创立了飞火大数据公司。之后，出于成本考虑丁一峻回到家乡创业做数据标注公司，“那时的数据标注行业确实能提供大量就业，洛阳数据局2019年的时候也牵头想做数据处理公司，招人好招，但交付难。”

2019年做百度某数据标注业务项目截图

“数据标注本质是高级搬砖。”丁一峻向娱乐资本论指出，“有标注需求的多是大公司，现在很多标注公司会外放做不过来的订单，这就让市面上很多没跟甲方深度捆绑的公司，接的订单都特零碎。这种订单一是边缘化业务，比如小语种。二是时间周期短的业务，很考验外部公司的交付能力。”

这两类订单，也倒逼着丁一峻要提高对员工素质的要求。这期间，丁一峻尝试过和学校监狱合作，相继作罢，“学校要考虑领导、辅导员各种利益分配，监狱对网络要求高，不如找全职。”

综合原因下，大部分的数据公司更倾向于招聘兼职人员。沈阳正午数据公司人事小苏接受河豚君采访的前一天，刚在Boss直聘上发了招聘兼职的通知，“行业本身利润有限，全职成本太高了，根本就不能实现。”

“我们招人基本要求大专以上，发了以后有上百人联系我，但是很多人没经验。”小苏招聘时，会和兼职强调对数据保密性的要求，“不知道是不是受网络的影响，很多人戒备心很重，听到要保密就不做了。但我们公司有良心，必须强调保密。”

杭州景联文是一家从事数据采集标注、数据融合挖掘的公司，现有1000多位全职标注人员，其CEO刘云涛向河豚君透露，“标注项目难度越来越高，要求标注员的学历和专业知识水平越来越高，比如语言标注团队，要求会各种小语种。医疗标注，需要医学院毕业的学生。”

龙猫则是全职兼职两手抓。胡邱飞透露，“我们现在线上注册用户400多万，活跃全职的1万人左右。”线上之外，龙猫在西南地区做了线下标注基地，“那边高校多，学生素质也更高，员工500人左右。”

龙猫的全职运营会了解兼职的情况，“我们更喜欢用没有全职工作的群体，比如宝妈，她们时间充沛，更好管理，也更稳定。”

整体来说，如今数据行业的标注人员发展如同美团般发展成了全职、服务站、众包等阶梯式的人力模式。胡邱飞透露，“我们线上众包是强管控，最终交付结果都是计件的。”

小苏介绍，目前公司兼职的员工大概两三千，常驻人员1000左右，流失率一半。丁一峻透露，“基础的标注员往往都是属于地方上的*工资标准，三线城市两三千左右，质检员和项目经理，能到七千左右。”

2、层层外包下，标注公司活少钱少风险高

“太卷了。”

这几乎是数据公司们共同的心声。

“我们现在就像河南的食品代加工厂一样，品牌是别人的，工作相当于帮别人养孩子。”丁一峻的公司高峰时有两三百人，现在公司只有40多位员工，“老客户的需求还在，能维持正常运营，但这种单子很鸡肋，一个月几百几千跟办公室采购差不多，利润太低，项目体量也不稳定。数据行业缺乏像苹果、特斯拉一样需求稳定的工厂。不然我也不想裁人，有活还需要找外包。”

骆靖元指出，AIGC爆火后自己招人和以前相比省去了科普人工智能的环节，但在接活上更卷了，“大公司有定期筛选的机制，比如说这批我需要10家公司。那我就从100个里面筛选，其中哪两三个不合适，我再动态替换。这使得一些公司不断报低价，恶性循环。”

为了接到订单，丁一峻一直在努力降本增效，“为了提高效率，我们开发了AI工具，之前2D拉框要8分一个，现在降到了5、6分，操作更便捷。质量上，如果客户不想要目标物低于某像素值的，工具直接调数值，标注员就不用标了。”

但是这种工具标注公司基本只能自用，“同行有能力买的，自己有开发的实力。没开发实力的，出不起这个钱。”说着，丁一峻给我发来了网上开源的标注工具，“每家平台都差不多，都是基于labelme的底层逻辑。早几年能打个信息差，卖平台赚点钱，现在不行了，大家都知道套路，直接上源码加个UI就成产品了。”

某标注工具图

“今年2月GPT刚火的时候订单多了一些，那时大公司的目的更多是为了割韭菜炒股价。后来这些AI大公司发现变现难，七八月份就很少在数据标注上投入了。”保定的数据标注老板周三体说，标注公司遇到的困难，仿佛也印证了AI潮冷去的某种现实，“AI公司的客户很多还是G端，根本不在乎AI能力，更在意能不能喝酒、能不能垫资”。

为了接活，周三体努力降低成本，“2D拉框最早是1毛5一个，现在降到了8、9分一个框。”

景联文在努力将非标准化产品标准化，现在将2D拉框标注项目的成本降低了50%。

打开天眼查搜索数据标注公司，我们也能发现大部分的公司经营所在地都在河北、山东、河南等人口大省，这与当地劳动力密集且廉价息息相关。“大厂会把业务承包给有资历和实力的公司，这种公司再外包，到我们价格很低了，还需要垫款，压力很大。”周三体说时叹了口气。

回忆起2017年创业的日子，骆靖元说那时借着自动驾驶行情数据行业很火，订单像雨后春笋一样地涌现，“像百度做了语音采集，高德、讯飞会再做一遍。算法都没变，标注都是新瓶装旧酒，同样一批人脸识别的图片，A公司做完B公司做，之后C公司再做，我们始终是在给别人做嫁衣。”但这样的日子也好景不长，如今订单量变少，“人员迅速增加后又会有断档期，大部分公司死在了断档期里。”

被问及是否觉得公司的运营模式是新时代的数据工厂时，丁一峻认为，“AI的产品线不像工厂那么完善，缺乏法律和社会面的支持，比如版权、数据安全。”

丁一峻曾承接过一家证券公司的标注工作，“刚好有一家标注员是这家证券公司的用户，他提出了抗议，后来私下花钱和解了。谁采集数据，出了问题谁负责，所以一般我们也不会过问数据来源情况。”

技术壁垒低、政策法规不健全、订单量少且不稳定，数据行业面临着多种困境，这也逼着其从业者寻找新的转型发展之路。

3、被AI代替？还是用AI起飞？

为了降本增效，龙猫研究了AI加持下的数据标注管理系统，“自动驾驶上节省了40%，AIGC在探索引入GPT等大语言模型校准标注结果。作为机器和人的交叉验证，保证输出的一个质量。因为人会有波动，机器更加稳定，偏差小。”

此外，龙猫在尝试通过AI技术省去标注环节，直接进入到审核和质检环节。

高质量语料，尤其是私域数据，是做好数据标注的关键，AI在仿写改写上的潜力，让人看到了其在合成语料上的潜力。“根据最新的生成式AI管理办法，用户拥有自己5张照片的版权，但5张照片合成后生成的数据版权属于合成方。”胡邱飞据此出发，在探索数据拟合向业务，目的在于拥有数据的所有权，标注后多次复售数据包。

AI创业者周晓明指出，“AIGC赋能合成数据，能够解决真实数据获取难、获取成本高、多样性不足、缺乏隐私保护等痛点问题，替代真实是大势所趋。”

对此，丁一峻则未敢尝试，“AIGC合成数据需要看政策，现在是灰色地带，好不好获取，就看胆子大不大了。谁也不知道未来会不会出爆款，有比拟真实数据的内容出现。”

此外，龙猫也在探索获取高质量数据的新方式，打造公司壁垒，胡邱飞说，“国外出现的一种趋势是用户主动售卖自己的数据，让数据公司得以绕开原始数据的厂商垄断的局面。我们也在想，怎么让那些有时间、素质又高的人做数据输出和标注，比如说通过做题的方式，让他们小程序上答题赚钱。”

“数据标注是自我淘汰的行业，AI可以通过模型优化做部分标注工作。发展到最后，这个行业可能只会剩下质检员这些岗位。”丁一峻为了应对变化，将公司从洛阳搬到了工业配套更完善的苏州，做数据采集车业务，“我们要给甲方提供硬件采购和数据服务的整套方案，这样甲方对我们的依赖度才能更深。”

景联文则选择了深耕垂类赛道，专注于教育和医疗领域，刘云涛透露，“教育方面，我们手上有3亿道从小学到职业教育的题，格式统一，解析维度包括专题分类、分析过程、考点解析、解答过程、教师点评等。现在大模型号称百模大战，至少有60家都要买我们的题库。”

医疗方面，景联文积累了400TB的医学资料数据库和三甲医院的专家的病理数据。“我们两年前开始拓展标注场景，选了医疗赛道，不管经济多不景气，医疗始终有存在的意义和价值。”

值得一提的是，龙猫AIGC业务线负责人李亚向娱乐资本论透露，龙猫正在打造自己的垂类大模型，“大模型一是做辅助标注，读懂题目后给答案让人选。第二是做全自动标注，AI直接出结果。这种情况我们会做双盲的实验，比如一个答案用三个标准做一遍，里面我们会拆一个一个人或者两个人用这种形式做，这样不需要再做抽检和质检，有些项目我们已经用GPT交付了，准确率方面达到了80%多，与人工接近。”

对市场规范化的呼吁，成为了不少数据标注从业者的心声，刘云涛指出，“未来，怎么让数据流通合规化、安全化是很大的问题。现在很多城市在建立大数据交易中心，是积极的信号。”

艾瑞数据的人工智能数据报告指出，三年后，中国人工智能的数据治理市场规模预计将突破百亿。

但更现实的问题是，吐槽中文语料库差的新闻屡见报端，大量的中小型数据标注公司正在卷生卷死，大批数据标注公司的业务产品，在批量化、利润率、风险性方面甚至不及富士康产品，映照到市场上的，则是逐渐遇冷的大模型市场以及越来越像“高科技施工队”的中国AI商业环境。

当我们试图寻找解决之道时，骆靖元回忆其工作多年感受时的话也许是*的答案，“对我们同事来说，当看到应用落地的时候，还是比较欣慰的事情。虽然工资低，但终归是做了点有用的事情。”

“数据是AI走向智能的基础，少开点发布会炒股价，多投点钱在标注上才是正事。”采访接近尾声时，周三体发来了这句话。

AI标注公司生态调查：一半本科生、宝妈最好用

AI标注公司生态调查：一半本科生、宝妈最好用

假面骑士：PB W形态转换颜色戒指来袭，Geats公认支援者第1号认定证公开

队记：尼克斯已与小查理-布朗签下一份exhibit 10合同

布局绿色产业打造绿色发展样本，TCL亮相COP28绿色价值峰会

一法警肇事逃逸被罚，洱源县法院回应：将按规定处理

真我 GT5 240W 快充实测，三大场景速度差距大，最快 10 分钟

9月8日湖南黄金股票走强 上涨0.94%

3398元！GoPro MAX 360度全景运动相机升级

中东投资热度不减！深创投举办出海沙特专场

一张芦花板的生态之旅

标杆管理的三个阶段是 标杆管理的三个阶段是指

来自星星的你第二部续集 来自星星的你第二部

雄安新区综合执法局开展特种设备“两个规定”培训

过敏性鼻炎要用什么药物治疗?上海治过敏性鼻炎哪家医院好 治疗鼻炎是有什么方法呢?

“海葵”余威致广州部分江河发生超警洪水

艾可蓝9月8日召开业绩说明会，投资者参与

直击外滩大会：上海交大朱宁vs诺奖得主席勒 我们正处在一个新时代的开端

股票行情快报：蜂助手（301382）9月8日主力资金净卖出2342.68万元

接替“海洋石油115”！“南海奋进”号FPSO完成升级改造换新启航

桑植县：开展“红色领航•党建联盟”主题党日活动

北动再发丫丫近况，端坐啃笋嘎嘎脆，眼尖网友：都胖出褶子了

法律要求的公司注册资料准备清单

法拉第未来：某些群体操纵市场情绪等来破坏公司估值

华为云发布CodeArts Inspector漏洞管理服务，守护产品研发安全

北京地铁：延长今日晚高峰最大运力投放时段1小时

“只要不要命、不违法的都可以试”，俞敏洪谈新东方如何渡过生死时刻！为何要做东方甄选？他这样说......

《DOTA 2》10周年庆祝活动延期至18日 集齐13件传奇物品

存储芯片价格触底反弹，闪存客户接受35%涨幅

晒黑了怎么恢复（夏天晒黑了怎么办）

相约北京聚焦文化论坛 | 沙晓岚：科技推动文化呈现 新技术让体验更沉浸

厦门象屿：林靖接替齐卫东出任财务负责人职务

券商晨会精华 | 港股再次进入可为期

“随申办”生育保险申领攻略（附操作指南）来了→

长春·公主岭首届文化旅游节暨新发村夏季“村晚”启幕

出口萎靡，但顺差扩大！我国再现衰退性顺差，这是好，还是坏呢？

马云说过的励志句子

公安部：1207名缅北涉诈犯罪嫌疑人移交我方

太燃啦！杭州亚运会火炬传递首日 现场精彩图集来袭（组图）

助力运营商布局智算网络应用，腾讯云底气何在？

神软下属子公司四创入驻永丰航天软件园区

雪迪龙：目前不涉及核辐射监测相关业务

运河桥客运站9月10日迁至临时站址运营

特斯拉宣布全球汽车超充桩数量突破5万个

香港遭遇1884年以来最大暴雨，已致14人受伤

iphone4s港版和国行的区别（iphone4S港版和美版的区别）

8月内地电影总票房77.63亿元 新建影院51家

开普勒定律内容_开普勒定律

云南城投9月8日盘中涨幅达5%

2023全国教师节天气地图来了 看哪里秋高气爽哪里雨水来扰

上海挂牌2宗国有建设用地 总起始价38.74亿元

汉仪股份9月8日盘中涨幅达5%

首艘国产大型邮轮“爱达·魔都号”开启完工验证新航程

多项优化 别克E5将迎首次OTA更新！

2023第十一届中国厦门中秋旅游嘉年华 邀你一起嗨翻天

纵横通信(603602.SH)：公司是华为的供应商之一，双方目前在通信网络技术服务领域有部分合作

邵阳市应急管理局肖某婚内出轨、抛妻弃子，引发儿子愤怒举报！

深圳市暴雨红色、暴雨橙色预警信号均降级为黄色

多地加强雨季水污染整治 保障饮用水水源环境安全

山西大同唐家堡变“糖”家堡 村民靠黄花过上“甜日子”

2023北京耀莱成龙影城房山店教师节特惠观影活动

恐怖解谜游戏《Vlad Circus Descend into Madness》在Steam上架

人均全红婵的海河边，天津大爷们跳出了一个6A级景区

脱口秀演员称“城市越穷事越多”，合肥通报系未经审批售票，李波昨夜发音频回怼

电动车发生交通事故后承担哪些法律责任

宝马董事长齐普策呼吁中国扩大加氢站网络

去年我国新型显示产业产值居全球首位

共同药业：9月7日融资买入76.02万元，融资融券余额5581.64万元

天津金融局与浦发行天津分行签订金融支持租赁保理工作对接合作协议

华中科大物理学院原院长陈相松拟任海南省属事业单位正职

省赛进行中！雄安新区代表队需要你点赞加油

开学了，大多数父母都踩坑“上课要认真听讲”，难怪孩子无动于衷

全程全网高标准护航服贸会

硕贝德（300322）9月7日主力资金净卖出5372.39万元

浙江玉环客渡船上传知识

鼠标没有反应怎么回事指示灯不亮（鼠标没有反应是怎么回事）

瓜分超20万赛事奖金奖品！京东×红魔杯9月开启

20英语怎么拼读（20英语）

首次盈利 康方生物上半年实现净利润24.9亿元

探访湖北谷城乡村记忆馆：定格往昔 见证变迁

9月8日湖南黄金股票走强上涨0.94%

标杆管理的三个阶段是标杆管理的三个阶段是指

来自星星的你第二部续集来自星星的你第二部

过敏性鼻炎要用什么药物治疗?上海治过敏性鼻炎哪家医院好治疗鼻炎是有什么方法呢?

直击外滩大会：上海交大朱宁vs诺奖得主席勒我们正处在一个新时代的开端

《DOTA 2》10周年庆祝活动延期至18日集齐13件传奇物品

相约北京聚焦文化论坛 | 沙晓岚：科技推动文化呈现新技术让体验更沉浸

太燃啦！杭州亚运会火炬传递首日现场精彩图集来袭（组图）

8月内地电影总票房77.63亿元新建影院51家

2023全国教师节天气地图来了看哪里秋高气爽哪里雨水来扰

上海挂牌2宗国有建设用地总起始价38.74亿元

多项优化别克E5将迎首次OTA更新！

2023第十一届中国厦门中秋旅游嘉年华邀你一起嗨翻天

多地加强雨季水污染整治保障饮用水水源环境安全

山西大同唐家堡变“糖”家堡村民靠黄花过上“甜日子”

首次盈利康方生物上半年实现净利润24.9亿元

探访湖北谷城乡村记忆馆：定格往昔见证变迁

长沙书院路社区：送法进社区助力清廉社区建设

星光股份2023年上半年净利-391.43万亏损减少91.26%

多维度开展新品种培训夯实产业服务“根基”

敦煌旅拍持续升温丝路风情体验“出圈”

本西：投篮方面我在练球感/干拔/定点三分天空才是我的极限

午评：两市冲高回落半导体板块强势

华壹国际2023年上半年净利-6.67万亏损减少79.55%

应收账款在资产负债表中怎么填列应收账款在资产负债表中怎么填列方法

公务员报名岗位都有哪些史上超全的市县级

贵州黎平：茯苓新品种亩产1200公斤

万科：明年公司有三笔美元债到期总规模约人民币110亿元

助力打造一刻钟便民生活圈我爱我家推动居民“住进每一种生活”

晃眼的拼音晃眼

里夫斯：今年有很多好事发生这是我应得的回报

南山控股(002314.SZ)：上半年净利润2548.63万元同比扭亏