小红书开源dots.llm1，MoE模型小激活量展现大实力

小红书开源dots.llm1，开启大模型新征程

昨日，向来在大模型领域较为低调的小红书，开源了首个自研文本大模型 dots.llm1，这是其人文智能实验室（hi lab）团队的心血结晶。该模型为中等规模的MoE 模型，总参数量 142B，激活参数 14B，虽激活量小，但性能良好。

多维度测评，彰显模型实力

对 dots.llm1进行多维度任务实测。在中文理解上，面对复杂绕口的题目，它能准确找出答案；对于“弱智吧”经典问题，不仅正经回答，还会玩梗并附上表情包，且理解谐音梗能力强。文本写作方面，以“老子今天要上班了”创作的藏头诗，生动刻画“打工人”疲惫感。编码能力也不俗，制作的响应式城市天气卡片组件功能齐全、配色舒适。

技术解读：高效架构下的以小搏大

dots.llm1 并非追求大参数，而是通过优质数据和高效训练实现“以小搏大”。预训练数据使用 11.2T 高质量 token 数据，来自 CommonCrawl 和自有 SPider 抓取的 web 数据。hi lab 团队通过 web文档准备、规则处理、模型处理三道工序把控数据质量，且未使用合成语料。在训练效率上，与 NVIDIA 中国团队合作提出 interleaved 1F1Bwith A2A overlap 方案，还优化实现了 Grouped GEMM，有效提升训练效率。

模型设计与训练：独特策略助力成长

模型设计借鉴 DeepSeek 系列，基于 Decoder – only Transformer 的 MoE 模型。训练采用 WSD学习率调度，分稳定训练和退火优化两阶段。稳定训练阶段学习率 3e – 4，用 10T token 语料训练，两次增加 batchsize；退火优化阶段分两个 stage 训练 1.2T token 语料，调整学习率和数据类型。

Post – train：精细调教提升性能

完成预训练后，dots.llm1 通过两阶段监督微调打磨性能。hi lab 团队筛选约 40万条高质量指令数据，涵盖多轮对话、知识问答等五大核心场景。微调分两阶段，第一阶段基础训练释放模型潜力，第二阶段在数学与代码等任务上采用拒绝采样微调策略，提升推理性能。最终评测显示，dots.llm1.inst在多个任务中表现出色，可与 Qwen 系列模型一较高下。

开源意义：促进交流与发展

在 HuggingFace 热门开源模型榜单上，中国模型占比渐高，开源成趋势。小红书开源dots.llm1，既展示技术成果，也表明愿与技术社区交流的态度。对开发者而言多了可靠模型基座，对 hi lab来说，社区微调成果将反哺基模。模型地址：https://huggingface.co/rednote – hilab、https://github.com/rednote – hilab/dots.llm1 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。