Dia-1.6B模型开源引关注 :NariLabs新开源的Dia-1.6B模型,具备强大的语音生成能力,能围绕任意主题生成对话,语音音色自然,还可添加语气、咳嗽声、笑声等特殊元素。官方演示将其与热门语音模型ElEVEnLabs和SeaSame对比,效果显著。该模型的权重与推理代码在GitHub开源后不到一天就获近5000标星。
性能表现与资源需求 :目前,Dia 1.6B在单张英伟达RTXA4000上每秒约可生成40个token,约86个token为1秒音频内容,在更强GPU或多卡配置下能实现实时生成音频。官方称完整版模型运行需10GB显存,未来会推出量化版本并支持CPU。开源社区也通过优化torch编译提升推理速度、节省显存。若缺乏算力资源,可在HuggingFace试玩Demo,但当前版本不支持中文。
真实语气语音生成优势 :使用Dia-1.6B操作简便,通过[s1][s2]标签可标注不同音色,模型会随机分配音色,若要固定音色,可添加音色提示词或固定随机种子。其语气能自动适配文字内容,如在着火相关对话中,语气会明显紧张,而ElevenLabs和Seasame模型则无此效果。此外,该模型还能通过括号添加咳嗽、吸鼻子等要素,其他模型暂不具备此功能。不过,在线Demo存在输入文字越多语速越快的问题,调整速度因子会使声音不自然。
两位本科生自学打造 :Nari Lab创始成员Toby Kim与JaeyongSung均为本科生,分别来自韩国首尔大学和韩国科学技术院,其中一人还在服兵役期间兼职参与项目,整个项目零融资启动,自学3个月完成。项目灵感源于谷歌NoteBookLM的自动生成播客对话功能,但他们希望对声音有更强控制力和脚本自由度。他们尝试市面所有文本转语音APi后,利用免费谷歌研究计划TPU资源训练模型,并推荐学习TPU的团队参考相关资料。未来,他们计划将Dia打造成完整应用,用于创建有趣对话、重组内容并分享。
在线资源链接 :如需试玩Dia-1.6B,可访问https://huggingface.co/spaces/nari-labs/Dia-1.6B;了解《How to Scale Your Model》可访问https://JAX-ml.github.io/scaling-book/;查看《Ultra-Scale Playbook》可访问https://huggingface.co/spaces/nanotron/ultrascale-playbook 。