AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

Meta视觉模型V-JEPA通过视频学习物理世界理解

V-JEPA是一种突破性的视频分析方法,采用自监督学习技术,无需外部监督元素,直接利用视频数据的内在特性进行学习。核心特性包括特征预测、网络架构优化、多...

字节跳动推出Boximator:视频内容生成和对象运动控制的新框架

Boximator是字节跳动研发的创新视频合成技术,利用硬框和软框精确控制运动。该技术通过多阶段训练优化性能,集成自跟踪功能,广泛应用于影视、游戏、VR和AR内...

Transfomer驱动的扩散模型DiT

DiT是一种结合去噪扩散与Transformer的先进模型,用于高质量图像生成。它结合自注意力机制与变分自编码器,具备高可扩展性与计算效率,广泛应用于多个领域。

DemoFusion: 高清图像分辨率免费开源增强框架

DemoFusion是一种先进的高分辨率图像生成技术,能够在低成本下生成高质量的图像。本文详细介绍了DemoFusion的功能亮点、工作机制以及如何使用,同时提供了官...

Adobe发布ActAnywhere,AI视频背景生成模型。

ActAnywhere是斯坦福大学和Adobe共同研发的尖端视频生成技术,凭借其自然融合背景、时间一致性和先进的自学模型,为电影VFX提供视频背景生成解决方案,可用于...

开源对话式AI搜索引擎项目 – Lepton Search

Lepton Search是由贾扬清领衔开发的开源对话式AI搜索引擎,结合了AI与Bing搜索技术,Python编写,支持对话式交互,提供定制化搜索体验。

Vary-toy:开源的小型多模态视觉模型

Vary-toy是由旷视科技、中国科学院大学和华中科技大学联合开发的紧凑型视觉语言模型,旨在解决资源约束下的研究团队在训练和部署大型模型时面临的困境。此模...

开源视频生成框架,全控姿态调整,创新技术助力摄影艺术。

Follow Your Pose 是由清华大学、香港科技大学、腾讯 AI Lab 和中科院研究人员联合开发的开源文本到视频生成框架。用户只需提供文本描述和姿态信息即可创作视...

腾讯开源文本图像扩散模型适配器 – IP-Adapter

IP-Adapter,由腾讯AI实验室研发的创新技术,专为预训练的文本至图像扩散模型设计,通过图像提示改善图像生成过程。它以轻量级设计、强大的泛化能力和无需微...

艾伦AI研究所发布全新开放大语言模型框架OLMo。

探索由Allen AI研究所研发的OLMo(Open Language Model)框架,一个开源的大型语言模型。了解其官方网站资源、关键特性、模型性能评估以及在零样本评估中的表...
1 2 3 4 5 9