AI领域新势力崛起,数据标注成关键要素
近期,DeepSeek的出现引发广泛关注,其上线7天用户破亿的成绩令人瞩目。这一增长纪录的背后,高质量的数据标注功不可没。数据标注,简单来说,就是将各类数据转化为计算机语言供AI学习,如同大人教小孩认识事物概念一般,对AI的进化至关重要。
数据标注与大模型风格塑造
不同的大模型各具特色,这与数据标注密切相关。例如美国公司AnthroPic的Claude系列“很文科且擅长古诗词”,谷歌的gemini系列更“理工科”。而如今,像安迪这样的数据标注员,已不局限于基础工作,他们为大模型编写原创数学题并评估解题思路,类似给AI上“奥数课”,这对标注员学历和能力要求颇高。
高学历标注员:行业新趋势
当下,AI标注工作吸引了众多高学历人才。以清华大学博士后冯聪为例,她凭借甲骨文研究与计算机科学交叉背景,加入面壁智能数据标注团队。从熟悉的古文字入手,冯聪找到了生成式AI标注门道,见证了大模型对古文字学习能力的提升。她还曾助力面壁智能发现斯坦福大学AI团队抄袭事件,让独家标注数据成为铁证。
数据标注团队架构与工作模式
在大模型初创公司,像三水这样的“AI数据专家”负责管理标注工作。上千名标注员中,垂类行业标注员稀缺但专业,他们撰写答案般的标注内容,为算法训练提供优质语料。而在大厂,如刘到闲这样的AI数据专家,需制定标注规则、监测效率与验收检查,工作考核严格。
数据标注行业发展与挑战
数据标注市场自2015年形成,2020年数据标注师被纳入国家职业分类目录。然而,从业者面临挑战。一方面,AI智能水平提升,垂类数据有限,从业者易触到天花板,三水和刘到闲都有此担忧;另一方面,尽管高学历标注员有转行机会,但工作琐碎复杂,让人陷入现实困境。
© 版权声明
文章版权归作者所有,未经允许请勿转载。