清华开源Video-T1:测试时缩放TTS提升视频生成质量

AI快讯3个月前发布 niko
13 0
AiPPT - 一键生成ppt

Video-T1引领视频生成新变革近日,清华大学研究团队公开了最新成果Video-T1,其核心技术“测试时缩放(TTS)”为视频生成领域注入新活力。该技术在推理阶段投入更多计算资源,大幅提升生成视频质量及与文本提示的契合度,且无需高昂的模型重新训练成本。

TTS的运作原理在大型语言模型领域,测试阶段增加计算量可提升性能,Video-T1将此思路引入视频生成。传统视频生成模型接收到文本提示后直接生成视频,而采用TTS的Video-T1则不同。它在生成过程中多次“搜索”“筛选”,通过生成多个候选视频,利用“测试验证器”评估,最终挑选出质量最佳的视频,如同艺术家精心雕琢作品。

Video-T1的核心搜索策略Video-T1着重于高效利用现有模型能力,提出两种主要搜索策略。一是随机线性搜索,通过随机采样多个高斯噪声,让视频生成模型对噪声逐步去噪,生成多个候选视频片段,经测试验证器评分后,选取得分最高的视频。二是帧树搜索(ToF),考虑到全步去噪计算成本大,ToF分三个阶段:先进行图像级对齐,影响后续帧生成;接着在测试验证器中运用动态提示,关注运动稳定性和物理合理性,依反馈指导搜索;最后评估视频整体质量,选择与文本提示对齐度最高的视频,这种自回归方式更智能地探索视频生成可能性。

TTS的显著成效实验显示,随着测试时计算量增加,模型性能持续提升。投入更多推理时间,同一视频生成模型能产出更高质量、与文本提示更一致的视频。在多个视频生成模型实验中,TTS均稳定提升性能。不同测试验证器评估重点不同,性能提升速率和程度有差异。在常见提示类别和易评估维度上,Video-T1的TTS方法成效显著,处理后的视频在清晰度、细节和与文本描述贴合度上明显提升,如“戴着太阳镜在泳池边当救生员的猫”视频,猫形象更清晰,动作更自然。

面临的挑战与未来展望尽管TTS取得显著进步,但在运动流畅性和时序一致性等难以评估的潜在属性方面,改进效果有限。这些属性需精确控制跨帧运动轨迹,现有视频生成模型面临挑战。不过,清华开源的Video-T1凭借创新的TTS策略,为提升视频生成质量提供新途径,未来TTS有望在视频生成领域发挥更重要作用。项目链接:https://top.aibase.com/tool/video-t1

© 版权声明
Trea - 国内首个原生AI IDE