AI时代已然来临,今年春节,AI公司成为热门焦点。临近春节,各大模型公司积极更新,其中DeepSeek表现格外突出。
1月20日晚,DeepSeek发布推理模型DeepSeek-R1正式版。该模型以低廉的训练成本,实现了不输OpenAI推理模型o1的性能,且完全免费开源,在行业内引起轩然大波。这是国产AI首次大范围在全球,特别是美国科技圈引发震动。在这一浪潮下,DeepSeek移动端应用迅速登顶美区苹果应用商店免费App排行第一,超越了ChatGPT等热门应用。其成功还影响了美股,让AI第一股英伟达最大跌幅达17%。
1月28日凌晨,DeepSeek又开源了多模态模型Janus-Pro-7B。此次,DeepSeek还发布了两个模型,Janus-Pro-7B和Janus-Pro-1B。Janus模型采用创新架构,对理解和生成任务的视觉编码进行解耦,提升了训练灵活性,缓解了性能瓶颈。而Janus Pro系列对训练流程进行修改,在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。
随着模型发布,DeepSeek推出Janus Flow新型多模态AI框架,旨在统一图像理解与生成任务。Janus Pro模型能使用简短提示提供稳定输出,具有出色的视觉质量和丰富细节,还能生成简单文本,可实现图像生成、图片描述、地标识别等多种功能。
在多模态理解任务中,Janus-Pro采用SigLIP-L作为视觉编码器,图像生成任务有特定的分词器。值得一提的是,Janus Pro的1B模型仅15亿参数,已可在WebGPU上的浏览器中100%运行,这意味着图片生成/理解成本降低,AI应用场景有望拓展。
DeepSeek用远低于美国公司的成本,做出创新模型,让美国同行震动。2025年,中国AI能否冲击美国认知,DeepSeek又藏着什么秘密,令人期待。