本科生自学3个月打造Dia-1.6B，挑战谷歌NoteBook LM语音生成能力

AI快讯1年前 (2025)发布 niko

Dia-1.6B模型开源引关注 ：NariLabs新开源的Dia-1.6B模型，具备强大的语音生成能力，能围绕任意主题生成对话，语音音色自然，还可添加语气、咳嗽声、笑声等特殊元素。官方演示将其与热门语音模型El EVEnLabs和SeaSame对比，效果显著。该模型的权重与推理代码在GitHub开源后不到一天就获近5000标星。

性能表现与资源需求 ：目前，Dia 1.6B在单张英伟达RTXA4000上每秒约可生成40个token，约86个token为1秒音频内容，在更强GPU或多卡配置下能实现实时生成音频。官方称完整版模型运行需10GB显存，未来会推出量化版本并支持CPU。开源社区也通过优化torch编译提升推理速度、节省显存。若缺乏算力资源，可在HuggingFace试玩Demo，但当前版本不支持中文。

真实语气语音生成优势 ：使用Dia-1.6B操作简便，通过[s1][s2]标签可标注不同音色，模型会随机分配音色，若要固定音色，可添加音色提示词或固定随机种子。其语气能自动适配文字内容，如在着火相关对话中，语气会明显紧张，而ElevenLabs和Seasame模型则无此效果。此外，该模型还能通过括号添加咳嗽、吸鼻子等要素，其他模型暂不具备此功能。不过，在线Demo存在输入文字越多语速越快的问题，调整速度因子会使声音不自然。

两位本科生自学打造 ：Nari Lab创始成员Toby Kim与JaeyongSung均为本科生，分别来自韩国首尔大学和韩国科学技术院，其中一人还在服兵役期间兼职参与项目，整个项目零融资启动，自学3个月完成。项目灵感源于谷歌NoteBookLM的自动生成播客对话功能，但他们希望对声音有更强控制力和脚本自由度。他们尝试市面所有文本转语音APi后，利用免费谷歌研究计划TPU资源训练模型，并推荐学习TPU的团队参考相关资料。未来，他们计划将Dia打造成完整应用，用于创建有趣对话、重组内容并分享。

在线资源链接 ：如需试玩Dia-1.6B，可访问https://huggingface.co/spaces/nari-labs/Dia-1.6B；了解《How to Scale Your Model》可访问https://JAX-ml.github.io/scaling-book/；查看《Ultra-Scale Playbook》可访问https://huggingface.co/spaces/nanotron/ultrascale-playbook 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。