AI项目和框架
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
Snap Video – Snapchat公司推出的AI视频生成模型
探索Snap Video,一款由Snap公司研发的先进AI视频生成模型,它通过创新技术和架构,实现了从文本到高分辨率视频内容的无缝转换。了解其核心特性、技术架构以...
TextDiffuser-2 – 微软等推出的AI图像文本渲染融合框架
TextDiffuser-2是一项由微软等机构开发的先进技术,专注于文本渲染领域的创新,能自动规划和编码文本布局以生成高质量图像。其功能覆盖文本规划、生成和修复...
UniEdit – 免训练调优的统一视频编辑框架
UniEdit是浙江大学、微软研究院和北京大学联合开发的全新视频编辑平台,拥有一键处理时间和空间维度的能力。它通过简单的安装和使用,支持动作编辑、风格化、...
DUSt3R – 从任意图像集合中重建3D场景的框架
DUSt3R立体三维重建技术由芬兰阿尔托大学与Naver欧洲实验室共同开发,提供单目和双目重建能力,兼容多视图立体重建,实现无需预先校准的即时3D重建。该技术创...
ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表
ScreenAI是谷歌推出的先进视觉语言模型,采用PaLI架构,整合Pi x2Struct技术,实现界面识别互动,具备自动识别、实时问答、内容摘要多样功能,技术以多模态编...
AtomoVideo – 阿里推出的高保真图像到视频生成框架
AtomoVideo是由阿里巴巴集团研发的图像至视频(I2V)生成技术,可以高效地将静态图片变换为动态且高还原度的视频。这项技术确保视频内容的质量高、稳定性强,...
ResAdapter – 字节推出的扩散模型分辨率适配器
探索ResAdapter,字节跳动研究团队的创新,专为稳定扩散模型设计。此项技术通过多种方法显著提升高分辨率图像生成质量,提供即插即用设计,改善域内一致性。...
Moondream – 开源的轻量级AI视觉语言模型,可在本地快速运行
探索Moondream AI,一款开源的人工智能视觉模型,以其精简参数量和出色性能在个人计算机和移动设备上运行。了解其安装与使用指南,以及在安防监控、无人机、...
PixArt-Σ – 华为推出的可生成4K高清图像的文生图模型
Pi xArt-Σ是通过华为诺亚方舟实验室、大连理工大学及香港大学联合创新技术,基于DiT架构的文本到图像生成技术,能快速生成4K高分辨率的高质量图片。它的功能...
ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐
腾讯研发一款名为ELLA的文本到图像生成模型,能与大型语言模型结合,增强复杂文本的理解与图像生成。ELA具备语义对齐、时序感知连结、无需训练、高兼容性,可...