AI发展面临多重挑战:在AI领域,大模型训练通常基于Transformer预测下一个Token,核心要素为数据、算法和算力。当下,算力硬件性能趋近瓶颈,预训练数据也逐渐见顶。我国因“芯片禁令”,在算力方面受限,且算法投入与美国头部公司有差距,人工智能发展面临严峻形势。
数据成为突出挑战:即便DeepSeekV3和R1推出缓解了部分困境,但数据问题依旧突出。高质量数据对模型准确性、泛化性和推理能力至关重要,然而国内可用数据量与国外存在差距,标准化程度也不高。企业应用AI面临的最大挑战便是缺乏高质量可用数据。
DeepSeek的训练之道:DeepSeek采用创新架构,运用数据蒸馏技术获取精炼数据。R1-Zero模型训练方式独特,靠自身摸索,零样本输入,虽在数学和编程方面表现出色,但答案可读性差。团队通过人工处理的COT数据监督微调、强化学习等优化措施,得到性能更优的模型。
具身智能与自动驾驶的数据困境:具身智能研究处于瓶颈期,数据规模缺口大,采集成本高。自动驾驶进入端到端时代,数据重要性提升,需海量、多样、优质的数据,处理体系也至关重要,长尾数据获取难度大。
获取高质量数据的途径:标注、采集和生成是获取高质量数据的主要方式。数据标注以人机协同为主,数据采集方式多样且成本高,数据生成中的世界模型可构建虚拟场景,但不能完全替代数据采集。
政府助力数据建设 :为解决人工智能产业数据痛点,多地政府加速推动高质量数据建设,国家数据局召开启动会,武汉、深圳等地出台政策支持数据集建设。
© 版权声明
文章版权归作者所有,未经允许请勿转载。