谷歌Vision Transformer作者携手入驻OpenAI

睿鸿在线 • 2024年12月7日上午12:10 • 财经 • 0 views

OpenAI 近日从谷歌 DeepMind 挖来了三位研究人员：资深研究科学家 Xiaohua Zhai（翟晓华）、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。这三位研究人员在 DeepMind 期间密切合作，共同参与了 Vision Transformer (ViT) 等重要研究。他们将在 OpenAI 苏黎世办事处共同建立并展开多模态 AI 领域的研究。

翟晓华是北京大学计算机科学博士，在谷歌担任软件工程师三年后，于 2017 年加入 DeepMind。目前，他在 Google Scholar 上的被引量超过 6 万，其中大部分来自他与 Beyer 和 Kolesnikov 共同撰写的 ViT 论文。

Beyer 是德国亚琛工业大学计算机科学博士，曾先后在谷歌大脑和 DeepMind 从事研究工作。他在博客中写到：「我是一名自学成才的黑客和科学家，致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」

Kolesnikov 是莫斯科国立大学硕士，奥地利科学技术研究所机器学习与计算机视觉博士，曾在谷歌大脑和 DeepMind 从事研究工作。

这三位研究人员的研究成果颇丰，包括：

1. Vision Transformer (ViT)：一篇开创性的论文，提出使用 Transformer 来大规模地生成图像。

2. ViT 缩放定律：研究了 ViT 模型和数据的规模、错误率、数据和计算之间的关系。

3. FlexiViT：针对不同图块大小的 ViT 改进版本。

4. MLP-Mixer：用于视觉任务的纯 MLP 架构。

5. Big Transfer (BiT)：重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式。

6. PaliGemma：基于视觉编码器和语言模型的开放式视觉语言模型。

7. Sigmoid 损失函数：仅使用 4 块 TPUv4 芯片，在 2 天时间内训练出了一个 ImageNet 零样本准确度为 84.5% 的模型。

8. UViM：统一模式方法：通过组合基础模型和语言模型，在全景分割、深度预测和图像着色上取得了不错的效果。