三位ViT领域领衔科研人员加入OpenAI，或将推动人工智能领域新突破

科技界传来了一则震撼的新闻——ViT领域的三位核心研究者集体离开了谷歌DeepMind，并转换战线加盟OpenAI。他们分别是翟晓华、卢卡斯·拜尔和亚历山大·科列斯尼科夫。三人都已对外宣布了将开启新的工作旅程。

这三个人在2021年合作发表了计算机视觉领域的里程碑级研究成果——ViT，并刷新了ImageNet的最高成绩。这份研究证明了在CV领域中，申请人为CNN并不是不可替代的，Transformer模型也能在CV中发挥重要作用，赢得了广泛的赞誉。目前，这篇论文的引用量已经突破4.9万次，并且开启了Transformer在CV领域应用的新篇章。

除了ViT之外，三人还有着共同的研究成就，例如SigLIP、PaliGamma等代表着当时最高水平的研究工作。在未来几周，他们将正式加盟OpenAI，并有望在苏黎世的实验室开展更多创新性工作。

根据外界消息，这三位专家学者是被OpenAI招收入队的。许多观点认为OpenAI能成功吸引这样的高精尖研究组合，确实值得庆幸和期待。

ViT领域核心专家投奔OpenAI
Xiaohua Zhai（翟晓华）
翟晓华博士在谷歌DeepMind担任高级研究员，领导着苏黎世的一个多模态研究小组，专注于多模态数据、开放权重模型和文化包容性的研究，累计获得六万多谷歌学术引用。他2014年从北京大学计算机系博士毕业后，即刻加入了谷歌苏黎世的科研工作。

Lucas Beyer
卢卡斯·拜尔同样是谷歌DeepMind的成员，并共同领导着苏黎世的多模态研究团队。至今已发表了超过50篇论文，并获得顶级会议CVPR、NeurIPS、ICCV等的接收。他个人官网展示了其追求创造非凡的科学家与黑客的双重身份。他在德国亚琛工业大学研读机械工程并拿到了机器人感知和计算机视觉博士学位后于2018年加盟谷歌。

Alexander Kolesnikov
亚历山大·科列斯尼科夫在谷歌大脑，后转入DeepMind团队工作，曾培育了多个SOTA视觉模型和开放权重模型，也在神经架构上有深入的研究，包括BiT、ViT、MLP-Mixer、FlexiViT和Jax——一种灵活的高性能研究基础设施。他曾在瑞士科学技术研究所攻读弱监督学习和图像生成模型的博士学位。

曾被誉为谷歌CV“黄金铁三角”
在他们于谷歌的任期内，这三位科研人员常常切磋交流，带来了多份在领域内产生深远影响的重要工作。其中最具影响力的当属ViT研究。这一个研究显示了Transformer架构的通用性，在其基础上发展出了Swin Transformer、DeiT等多项成果。ViT技术创新地提出了将图像分割成固定大小的块，每个块视为序列元素的想法，并利用这些块进行变换处理。ViT在多个视觉任务中表现卓越，尤其在大规模的训练数据集上超越了大多数传统CNN模型，如在ImageNet分类任务上达到甚至优于最先进CNN模型的成绩。

另一方面，他们还合作推出了在行业内同样享有盛誉的MLP-Mixer、BiT等研究工作。

这项行业的巨大变动使得我们对这三位专家未来的工作充满了期待。期望他们在新的工作环境中能继续发挥科研的力量，为人工智能的发展提供更多令人兴奋的贡献。关注这一领域的学术界和商业部门都在密切注视着他们接下来的动作，希望能见证他们在人工智能领域创造的新高度。

# AI快讯

文章版权归作者所有，未经允许请勿转载。