AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架，紧跟最新AI领域的进展，解读AI研究论文和方法框架，帮你快速了解这些项目的工作原理。

“探索谷歌AI视频生成模型VideoPoet”

VideoPoet是由谷歌科研团队开发的基于大模型AI技术的视频合成工具，支持文本到视频的转换以及多种视频编辑功能。它可以为视频创作提供丰富的实现途径，如多模...

2年前 (2024)

SDXL-Lightning是字节跳动研发的文本到图像生成技术，采用扩散模型，极速生成高清图像，提升用户体验。技术亮点包括极速生成、渐进式蒸馏、融合对抗性训练。...

2年前 (2024)

ConsiStory是一项由NVIDIA与特拉维夫大学共同研发的最新技术，它能在无需训练的前提下生成风格一致的连贯图像序列。该技术利用预训练的生成对抗网络，实现图...

2年前 (2024)

由Stability AI推出的Stable Diffusion 3通过Diffusion Transformer架构和Flow Matching技术，进步了文本处理和多提示融合，让AI图像创作达到新高度。

2年前 (2024)

ScreenAgent，由吉林大学人工智能学院团队开发的先进计算机控制智能体。它利用视觉语言模型（VLM）实现智能化交互，能够通过观察屏幕内容生成相应的鼠标和键...

2年前 (2024)

VideoPrism是由谷歌研究团队开发的先进视频理解工具，它通过预训练模型统一解决视频分类、定位、检索、描述生成和问答等任务。了解其核心优势、功能亮点和技...

2年前 (2024)

YOLOv9由台北中研院和科技大学研发，采用PGI和GELAN，优化信息丢失问题，提升目标检测实时性与准确性，并在安全监控、自动驾驶和机器人视觉等应用潜力巨大。

2年前 (2024)

GPT-SoVITS是一个采用GPT模型与SoVITS技术开发的声音复刻项目，通过少量样本生成高质量语音复刻与TTS。由B站UP主花儿不哭推出，支持个性化语音助手、虚拟角色...

2年前 (2024)

OpenCodeInterpreter是一个开源的代码解释器工具，它结合了大模型的能力，通过生成、执行、迭代和优化代码来提高软件开发的效率和质量。支持多语言编程任务，...

2年前 (2024)

Champ是阿里巴巴集团、复旦大学和南京大学联合研发的3D人体动画技术。它融合3D参数化方法与潜在扩散模型，能从静态照片生成动态视频，捕获人体3D形状动态，同...

2年前 (2024)

1 2 3 4 5 6 … 9