AI项目和框架
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
OpenELM – 苹果开源的高效语言模型系列
探索苹果公司推出高效开源语言模型OpenELM,揭示其技术架构、规模、预训练数据集及开源许可。模型采用Transformer架构和创新技术如分组查询注意力(GQA)、Sw...
ID-Animator – 腾讯等推出的个性化人物视频生成框架
探索ID-Animator,一种腾讯光子工作室等联合开发的先进视频生成技术。它能基于单一参考面部图像生成个性化视频,同时保持人物多样性,根据文本提示调整内容,...
IDM-VTON – 逼真的开源AI虚拟试穿框架
IDM-VTON技术是一种由韩国科学技术院和OMNIOUS.AI共同开发的创新虚拟试衣技术。其通过视觉编码器和GarmentNet网络,结合简单文本提示,提供高效、个性化且高...
Jamba – AI21开源的首个基于Mamba架构的大模型
探索AI21 Labs推出的业界首个Mamba架构大型语言模型——Jamba,了解其混合结构、SSM技术、256K上下文窗口处理能力以及开源精神。Jamba在性能和效率上取得市场尊...
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型
OpenAI的Voice Engine是一项基于15秒音频样本创建逼真语音的AI工具,覆盖教育、服务改善和言语残障辅助等应用。目前在预览和测试阶段,注重安全性,旨在探索...
Parler-TTS – Hugging Face开源的文本转语音模型
探索Parler-TTS,一款由Hugging Face开发的先进开源文本到语音(TTS)模型。了解其高效模仿说话者特征的能力,卓越的语音输出质量,风格多样的定制选项,开放...
SWE-agent – 普林斯顿开源的AI程序员智能体
普林斯顿大学的NLP小组开发了开源SWE-agent系统,应用高级语言模型(类GPT-4)自动给出编程解决方案。平均93秒解决问题,达SOTA水准,具备管理Pull Request、代...
FunClip – 阿里达摩院开源的AI自动视频剪辑工具
FunClip是阿里达摩院开发的全开源视频剪辑工具,具备自动化话语识别、热词定制、发言人识别等功能。支持本地部署和命令行操作,提供Gradio用户交互界面,实现...
Phi-3 – 微软最新推出的新一代小模型系列
微软研究院发布了Phi-3系列,包含三款在参数较少时通过优化可比肩大型模型的小语言模型。其中phi-3-mini是最小体积模型,它在多种基准测试中超越了参数量更大...
Hyper-SD – 字节跳动推出的高效的图像合成框架
探索Hyper-SD图像合成框架,一种由字节跳动研发的先进技术,旨在降低扩散模型的计算负载。通过轨迹分割一致性蒸馏(TSCD)、人类反馈学习、分数蒸馏等方法,H...