人工智能界巨变:谷歌精英工程师齐聚OpenAI,共研革命性技术

AI快讯2周前发布 niko
11 0

【震撼业界】昨天,OpenAI 从谷歌DeepMind挖走了三位顶级工程师!

工程师分别是Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai,都在个人官方网站上官宣了这条消息。 
据悉,加入OpenAI后,他们将致力于多模态人工智能的研发。
他们曾是近年来最先进视觉方法核心以及开源模型的关键贡献者。
三人之间的关系也非常密切,学术合作颇多。
其中,他们于2021年作为共同主要作者发布的论文「An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale」,被引用量高达4.9万。
该论文开创性地提出了Vision Transformer (ViT)。当在大规模数据上进行预训练,并迁移到多个中型或小型图像识别基准上时,ViT相较于最先进的卷积网络能够取得优异的结果,同时所需的训练计算资源显著更少。
研究证明了,在视觉领域中,对卷积网络的依赖并非必要,一个直接应用于图像块序列的纯Transformer在图像分类任务中也能表现出色。
在此之前,2020年他们还曾一起提出了神经网络架构Big Transfer (BiT),也是一次视觉模型扩展的突破。
ViT之后,他们在神经网络架构方面的探索也没有止步,分别在2021年和2023年提出了MLP-Mixer和FlexiViT。
此外,他们三人还一起参与开发了开放权重模型和PaliGemma
2023年,他们一起研究提出了一种用于语言-图像预训练的简单成对Sigmoid损失函数,发现在CLIP中使用Sigmoid替代SoftMax更具可扩展性。
结合锁定图像微调,他们使用仅四块TPUv4芯片在两天内训练出一个SigLiT模型,其在ImageNet零样本分类任务中达到了84.5%的准确率。
PaliGemma则是今年7月提出的。它是开源的视觉语言模型(VLM),基于视觉编码器和Gemma-2B语言模型构建,在各种开放世界任务中表现强劲。
值得注意的是,Xiaohua Zhai(翟晓华)是一名华人,本科毕业于南京大学,且曾于2014年获得了北京大学计算机科学博士学位。 
在谷歌DeepMind,他担任高级研究科学家兼经理,并领导着苏黎世的一支多模态研究团队,专注于多模态数据、开放权重模型以及包容性等领域的研究。
至于Alexander Kolesnikov,他自2018年起,一直在谷歌工作,并担任高级研究科学家。
在此之前,他在奥地利科技研究所攻读博士学位,导师是Christoph Lampert,当时的研究方向是弱监督学习和生成图像模型。
他的成就包括训练了多个最先进视觉模型,以及此前提到的开放权重模型SigLIP和PaliGemma、神经网络架构方面的BiT、ViT、MLP-Mixer和FlexiViT。
他的研究重点是统一、简化并扩展多模态深度学习,如UViM、带奖励的视觉模型和JetFormer。
他还热衷于编写灵活且高性能的研究基础架构(尤其是在JAX中)。其中很大一部分是开源的,例如bigVision。
Lucas Beyer则很有趣,他自诩为「自学成才的黑客和科学家」。 
他的在会议上发表的论文数量相当多。 
他也是在2018年加入了谷歌。                                                                              
【自学历程】五年前,Gabriel Petersson还是个瑞典的高中辍学生,几乎没有工程经验便加入了一家创业公司。
而今天,他正式成为了OpenAI的研究科学家,致力于通过Sora来构建通用人工智能。
在推文中,Petersson写道,当前人工智能领域众多公司都在争相‘开发’AI模型,但这种模仿和追赶是非常容易的。
相比之下,全球只有一家公司在提升模型的智能水平上取得了突破性进展。
目前AI在理解现实世界方面仍面临诸多挑战。
为应对这一问题,我们可以为AI构建可探索的场景,让它从最基本的像素数据中重新发现物理定律,同时为类人机器人打造用于学习的模拟环境。
Petersson最后表示,他将与一群他所遇到过的最杰出人才携手,共同攻克这些关键难题。
回顾Petersson的经历,不得不感慨他真是天赋异禀。
14岁就非常有商业头脑。那一年他开始从事宝可梦卡片交易,2年内总利润超过两万美元,保持很高的利润率。
他制作的延时摄影视频获得数百万次播放量;还运营游戏服务器,与内容创作者合作,并尝试将自建的开放世界角色扮演游戏服务器商业化。
他从高中辍学后,作为创始团队成员加入Depict.ai,该公司现已发展到约40名员工。
期间,他技术销售两手抓:既运用CNN和NLP技术开发了首个产品推荐系统,又负责B2B销售,通过上门拜访成功签约多个客户。
他18、19岁这两年,恰逢新冠疫情期间,Petersson开发了一个洗手液比价网站,首周就实现了2.2万美元收入。
后来,他在19-20岁期间被聘为瑞典最大的云厨房企业Curb Food的临时首席技术官,当时该公司有80名员工,并且他领导组建了7人的工程师团队,成功推出了厨房管理系统。
他作为Dataland(YC孵化项目)的创始工程师,研发了一款面向开发者的高性能替代产品——能够几秒内加载数十万行数据的Airtable仿制产品;以及开发了业界性能最强的网页表格之一,可以流畅处理数十万行数据的筛选和排序,且保持稳定帧率。
他还用Rust语言结合Skia图形引擎开发了一个实验性网页表格。即使在CPU降速6倍的情况下,也能达到60帧的滚动和渲染速度。
演示链接如下。
以上便是本次事件的全部内容,敬请期待他们未来在多模态人工智能领域所取得的突破式成就。

© 版权声明

相关文章

暂无评论

暂无评论...