DeepSeek训练法则与AI数据挑战

AI快讯1年前 (2025)发布 niko

AI发展面临多重挑战：在AI领域，大模型训练通常基于Transformer预测下一个Token，核心要素为数据、算法和算力。当下，算力硬件性能趋近瓶颈，预训练数据也逐渐见顶。我国因“芯片禁令”，在算力方面受限，且算法投入与美国头部公司有差距，人工智能发展面临严峻形势。

数据成为突出挑战：即便DeepSeekV3和R1推出缓解了部分困境，但数据问题依旧突出。高质量数据对模型准确性、泛化性和推理能力至关重要，然而国内可用数据量与国外存在差距，标准化程度也不高。企业应用AI面临的最大挑战便是缺乏高质量可用数据。

DeepSeek的训练之道：DeepSeek采用创新架构，运用数据蒸馏技术获取精炼数据。R1-Zero模型训练方式独特，靠自身摸索，零样本输入，虽在数学和编程方面表现出色，但答案可读性差。团队通过人工处理的COT数据监督微调、强化学习等优化措施，得到性能更优的模型。

具身智能与自动驾驶的数据困境：具身智能研究处于瓶颈期，数据规模缺口大，采集成本高。自动驾驶进入端到端时代，数据重要性提升，需海量、多样、优质的数据，处理体系也至关重要，长尾数据获取难度大。

获取高质量数据的途径：标注、采集和生成是获取高质量数据的主要方式。数据标注以人机协同为主，数据采集方式多样且成本高，数据生成中的世界模型可构建虚拟场景，但不能完全替代数据采集。

政府助力数据建设 ：为解决人工智能产业数据痛点，多地政府加速推动高质量数据建设，国家数据局召开启动会，武汉、深圳等地出台政策支持数据集建设。

文章版权归作者所有，未经允许请勿转载。