AI工具
AutoDev – 微软推出的AI编程和程序开发智能体框架
AutoDev是由微软研发者开发的AI编程框架,通过自动化优化软件工程,集成代码编写、调试、测试及版本管理,包括任务分配、云端编码、测试策略、维护、多智能体...
Grok-1 – 马斯克旗下xAI开源的大模型,参数量3140亿
Grok-1,由xAI开发的具有3140亿参数的语言模型,是目前开源中参数量最大的,基于自回归Transformer架构。适用于问答、信息检索、创意写作等NLP任务,但准确度...
Open-Sora – 开源的类Sora架构的视频生成模型和复现方案
Colossal-AI团队的Open-Sora是一个基于Diffusion Transformer的视频生成模型,模仿OpenAI的Sora服务。该模型通过3个阶段生成高质量文本到视频内容。提供完整...
Stability AI推出SV3D:创新多视角合成与3D模型生成技术。
SV3D技术能从单张二维图片生成多视角立体图像,转成三维网格模型,具有多视角视频生成、立体网格模型制作、轨道视频生成、相机路径控制和新视角合成等特点。
VLOGGER – 谷歌推出的图像到合成人物动态视频的模型
谷歌研究团队开发VLOGGER,一种革新技术,使用多模态扩散模型从静态图片和音频生成动态视频,无需原视频,逼真度高,支持跨语言适配,颠覆视频制作、远程教育...
ChatMusician – 可理解和生成音乐的大模型
ChatMusician是由多机构合作开发,集成大型语言模型LLaMA核心算法的音乐AI工具。它运用ABC记谱法简化音乐理解与创作,并独立于外部多模态结构及分词器,具备...
StarCoder 2 – BigCode推出的第二代开源代码大模型
StarCoder 2是一款由BigCode与Nvidia共同研发的创新编程语言模型,集成3.3至4.3万亿代码token,支持600+编程语,广泛应用于代码补全、编辑及推理,提供3B至15...
EMO – 阿里推出的AI肖像视频生成框架
EMO,由阿里巴巴智能计算研究院研发,是一款音频驱动AI肖像视频生成系统。它可将静态图像与音频转变生成高度真实感和表现力的动态肖像视频,在视频制作和表情...
MeloTTS – MyShell AI推出的多语言文本到语音转换工具
MeloTTS是MyShell AI开发的开源多语言TTS库。支持多种语言和口音,包括多国英语、西班牙语等,特色中英混合发音,易于部署。
LayerDiffusion – AI生成具有透明度的图像的框架
斯坦福大学张吕敏和Maneesh Agrawala共同开发LayerDiffuse,创新图像生成技术,允许用户生成具有透明度信息和多独立图层的图像,支持复杂视效预设,代码及论...