AI工具
ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐
腾讯研发一款名为ELLA的文本到图像生成模型,能与大型语言模型结合,增强复杂文本的理解与图像生成。ELA具备语义对齐、时序感知连结、无需训练、高兼容性,可...
Pix2Gif – 微软推出的静态图像转动态GIF的扩散模型
探索微软研究院开发的Pi x2Gif技术,这项创新技术能够将静态图片通过运动引导的扩散模型转换为生动的GIF动画或视频。了解其工作机制、主要功能与优势,并体验...
Transformer Debugger – OpenAI开源的理解和分析大模型内部的工具
OpenAI的Superalignment团队开发的Transformer Debugger(TDB),是用于NLP领域的深度学习工具,集成自动可解释性和稀疏自动编码器技术。无需编码即可分析Tra...
ComflowySpace – 免费开源且简单易用的ComfyUI整合工具
ComflowySpace是开源ai图像/视频生成软件,适用Windows/Mac。易安装,支持工作流、多标签、模板,友好的ui,方便插件管理。包含指南和资源链接。
Follow-Your-Click – 腾讯等开源的图像到视频模型,可生成局部动画
Follow-Your-Click技术由腾迅、清华和香港科技大学研发,用户可通过点击和动作描述将静态图生成动态视频,特点包括简易交互、多对象动画生成、高质量视屏输出...
LATTE3D – 英伟达推出的文本快速生成3D对象的模型
英伟达多伦多AI实验室开发的LATTE3D模型,通过创新的'摊销优化'技术,实现了从文本描述到3D对象的快速生成,只需400毫秒。这一技术突破为设计师、艺术家和开...
BrushNet – 腾讯推出的高质量图像照片修复模型
腾讯PCG部门ARC实验室与香港大学共同开发的BrushNet是一项图像修复技术,采用双分支架构,基于扩散模型原理修复图片遮罩区域,精度高且原始图像连贯性保持。...
SUPIR – 高保真的AI图像修复和画质增强模型
SUPIR是一项先进图像恢复技术,融合了深度学习和模型扩展技巧,大幅提升低质量图质效果。适宜于修复老照片、增强模糊图像、除噪和色彩校正等。由中国科学院等...
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft是由德克萨斯大学奥斯汀分校发明的神经编解码器语言模型,以Transformer架构为基础,结合token重排、因果掩蔽和延迟叠加等创新。在音频序列零样本...
StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
PicsArt AI的研究团队推出了StreamingT2V模型,旨在解决长视频生成的挑战,如视频质量下降、场景切换不连贯和卡顿。它融合了条件注意、外观保持和随机混合技...