清华开源Video-T1：测试时缩放TTS提升视频生成质量

AI快讯1年前 (2025)发布 niko

Video-T1引领视频生成新变革近日，清华大学研究团队公开了最新成果Video-T1，其核心技术“测试时缩放（TTS）”为视频生成领域注入新活力。该技术在推理阶段投入更多计算资源，大幅提升生成视频质量及与文本提示的契合度，且无需高昂的模型重新训练成本。

TTS的运作原理在大型语言模型领域，测试阶段增加计算量可提升性能，Video-T1将此思路引入视频生成。传统视频生成模型接收到文本提示后直接生成视频，而采用TTS的Video-T1则不同。它在生成过程中多次“搜索”“筛选”，通过生成多个候选视频，利用“测试验证器”评估，最终挑选出质量最佳的视频，如同艺术家精心雕琢作品。

Video-T1的核心搜索策略Video-T1着重于高效利用现有模型能力，提出两种主要搜索策略。一是随机线性搜索，通过随机采样多个高斯噪声，让视频生成模型对噪声逐步去噪，生成多个候选视频片段，经测试验证器评分后，选取得分最高的视频。二是帧树搜索（ToF），考虑到全步去噪计算成本大，ToF分三个阶段：先进行图像级对齐，影响后续帧生成；接着在测试验证器中运用动态提示，关注运动稳定性和物理合理性，依反馈指导搜索；最后评估视频整体质量，选择与文本提示对齐度最高的视频，这种自回归方式更智能地探索视频生成可能性。

TTS的显著成效实验显示，随着测试时计算量增加，模型性能持续提升。投入更多推理时间，同一视频生成模型能产出更高质量、与文本提示更一致的视频。在多个视频生成模型实验中，TTS均稳定提升性能。不同测试验证器评估重点不同，性能提升速率和程度有差异。在常见提示类别和易评估维度上，Video-T1的TTS方法成效显著，处理后的视频在清晰度、细节和与文本描述贴合度上明显提升，如“戴着太阳镜在泳池边当救生员的猫”视频，猫形象更清晰，动作更自然。

面临的挑战与未来展望尽管TTS取得显著进步，但在运动流畅性和时序一致性等难以评估的潜在属性方面，改进效果有限。这些属性需精确控制跨帧运动轨迹，现有视频生成模型面临挑战。不过，清华开源的Video-T1凭借创新的TTS策略，为提升视频生成质量提供新途径，未来TTS有望在视频生成领域发挥更重要作用。项目链接：https://top.aibase.com/tool/video-t1

# AI快讯

文章版权归作者所有，未经允许请勿转载。