AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

“探索谷歌AI视频生成模型VideoPoet”

VideoPoet是由谷歌科研团队开发的基于大模型AI技术的视频合成工具,支持文本到视频的转换以及多种视频编辑功能。它可以为视频创作提供丰富的实现途径,如多模...

字节跳动创新技术:SDXL-Lightning文本到图像生成模型

SDXL-Lightning是字节跳动研发的文本到图像生成技术,采用扩散模型,极速生成高清图像,提升用户体验。技术亮点包括极速生成、渐进式蒸馏、融合对抗性训练。...

探索Stable Diffusion 3:Stability AI的最新图像生成技术。

由Stability AI推出的Stable Diffusion 3通过Diffusion Transformer架构和Flow Matching技术,进步了文本处理和多提示融合,让AI图像创作达到新高度。

ConsiStory:实现主题一致性,无需训练的文生图方法。

ConsiStory是一项由NVIDIA与特拉维夫大学共同研发的最新技术,它能在无需训练的前提下生成风格一致的连贯图像序列。该技术利用预训练的生成对抗网络,实现图...

探索视觉语言模型驱动的计算机控制智能体,ScreenAgent。

ScreenAgent,由吉林大学人工智能学院团队开发的先进计算机控制智能体。它利用视觉语言模型(VLM)实现智能化交互,能够通过观察屏幕内容生成相应的鼠标和键...

谷歌团队发布多功能视频编码器VideoPrism

VideoPrism是由谷歌研究团队开发的先进视频理解工具,它通过预训练模型统一解决视频分类、定位、检索、描述生成和问答等任务。了解其核心优势、功能亮点和技...

新一代YOLOv9目标检测系统,高效实时性能。

YOLOv9由台北中研院和科技大学研发,采用PGI和GELAN,优化信息丢失问题,提升目标检测实时性与准确性,并在安全监控、自动驾驶和机器人视觉等应用潜力巨大。

GPT-SoVITS – 开源的声音克隆项目,只需少量数据即可合成声音

GPT-SoVITS是一个采用GPT模型与SoVITS技术开发的声音复刻项目,通过少量样本生成高质量语音复刻与TTS。由B站UP主花儿不哭推出,支持个性化语音助手、虚拟角色...

OpenCodeInterpreter – 开源的代码解释器,可生成和执行代码

OpenCodeInterpreter是一个开源的代码解释器工具,它结合了大模型的能力,通过生成、执行、迭代和优化代码来提高软件开发的效率和质量。支持多语言编程任务,...

Champ – 基于3D的人物图片转视频动画模型

Champ是阿里巴巴集团、复旦大学和南京大学联合研发的3D人体动画技术。它融合3D参数化方法与潜在扩散模型,能从静态照片生成动态视频,捕获人体3D形状动态,同...
1 2 3 4 5 6 9