谷歌Vision Transformer作者携手入驻OpenAI

谷歌Vision Transformer作者携手入驻OpenAI

OpenAI 近日从谷歌 DeepMind 挖来了三位研究人员:资深研究科学家 Xiaohua Zhai(翟晓华)、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。这三位研究人员在 DeepMind 期间密切合作,共同参与了 Vision Transformer (ViT) 等重要研究。他们将在 OpenAI 苏黎世办事处共同建立并展开多模态 AI 领域的研究。

翟晓华是北京大学计算机科学博士,在谷歌担任软件工程师三年后,于 2017 年加入 DeepMind。目前,他在 Google Scholar 上的被引量超过 6 万,其中大部分来自他与 Beyer 和 Kolesnikov 共同撰写的 ViT 论文。

Beyer 是德国亚琛工业大学计算机科学博士,曾先后在谷歌大脑和 DeepMind 从事研究工作。他在博客中写到:「我是一名自学成才的黑客和科学家,致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」

Kolesnikov 是莫斯科国立大学硕士,奥地利科学技术研究所机器学习与计算机视觉博士,曾在谷歌大脑和 DeepMind 从事研究工作。

这三位研究人员的研究成果颇丰,包括:

1. Vision Transformer (ViT):一篇开创性的论文,提出使用 Transformer 来大规模地生成图像。

2. ViT 缩放定律:研究了 ViT 模型和数据的规模、错误率、数据和计算之间的关系。

3. FlexiViT:针对不同图块大小的 ViT 改进版本。

4. MLP-Mixer:用于视觉任务的纯 MLP 架构。

5. Big Transfer (BiT):重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式。

6. PaliGemma:基于视觉编码器和语言模型的开放式视觉语言模型。

7. Sigmoid 损失函数:仅使用 4 块 TPUv4 芯片,在 2 天时间内训练出了一个 ImageNet 零样本准确度为 84.5% 的模型。

8. UViM:统一模式方法:通过组合基础模型和语言模型,在全景分割、深度预测和图像着色上取得了不错的效果。

9. 通过任务奖励微调计算机视觉模型:展示了强化学习在多种计算机视觉任务上的有效性。

10. JetFormer:原始图像和文本的自回归生成模型:提出了一种无需预训练组件的高质量图像和文本联合生成模型。

OpenAI 方面表示,这三位研究人员将从事多模态 AI 研究。随着 OpenAI 与竞争对手在开发最先进的人工智能模型方面的激烈竞争,招聘顶尖研究人员已成为各方争夺的焦点。而三人组的加入,无疑将成为 OpenAI 的重要助力。

原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/07/22532.shtml

Like (0)
睿鸿在线睿鸿在线
Previous 2024年12月7日 上午12:06
Next 2024年12月7日 上午12:16

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注