小红书开源dots.llm1,开启大模型新征程
昨日,向来在大模型领域较为低调的小红书,开源了首个自研文本大模型 dots.llm1,这是其人文智能实验室(hi lab)团队的心血结晶。该模型为中等规模的MoE 模型,总参数量 142B,激活参数 14B,虽激活量小,但性能良好。
多维度测评,彰显模型实力
对 dots.llm1进行多维度任务实测。在中文理解上,面对复杂绕口的题目,它能准确找出答案;对于“弱智吧”经典问题,不仅正经回答,还会玩梗并附上表情包,且理解谐音梗能力强。文本写作方面,以“老子今天要上班了”创作的藏头诗,生动刻画“打工人”疲惫感。编码能力也不俗,制作的响应式城市天气卡片组件功能齐全、配色舒适。
技术解读:高效架构下的以小搏大
dots.llm1 并非追求大参数,而是通过优质数据和高效训练实现“以小搏大”。预训练数据使用 11.2T 高质量 token 数据,来自 CommonCrawl 和自有 SPider 抓取的 web 数据。hi lab 团队通过 web文档准备、规则处理、模型处理三道工序把控数据质量,且未使用合成语料。在训练效率上,与 NVIDIA 中国团队合作提出 interleaved 1F1Bwith A2A overlap 方案,还优化实现了 Grouped GEMM,有效提升训练效率。
模型设计与训练:独特策略助力成长
模型设计借鉴 DeepSeek 系列,基于 Decoder – only Transformer 的 MoE 模型。训练采用 WSD学习率调度,分稳定训练和退火优化两阶段。稳定训练阶段学习率 3e – 4,用 10T token 语料训练,两次增加 batchsize;退火优化阶段分两个 stage 训练 1.2T token 语料,调整学习率和数据类型。
Post – train:精细调教提升性能
完成预训练后,dots.llm1 通过两阶段监督微调打磨性能。hi lab 团队筛选约 40万条高质量指令数据,涵盖多轮对话、知识问答等五大核心场景。微调分两阶段,第一阶段基础训练释放模型潜力,第二阶段在数学与代码等任务上采用拒绝采样微调策略,提升推理性能。最终评测显示,dots.llm1.inst在多个任务中表现出色,可与 Qwen 系列模型一较高下。
开源意义:促进交流与发展
在 HuggingFace 热门开源模型榜单上,中国模型占比渐高,开源成趋势。小红书开源dots.llm1,既展示技术成果,也表明愿与技术社区交流的态度。对开发者而言多了可靠模型基座,对 hi lab来说,社区微调成果将反哺基模。模型地址:https://huggingface.co/rednote – hilab、https://github.com/rednote – hilab/dots.llm1 。