斯坦福李飞飞空间智能团队首创AI模型，一张图生成3D交互场景

睿鸿在线 • 2024年12月9日上午5:26 • 财经 • 0 views

在人工智能领域的杰出女性和华人代表李飞飞的带领下，斯坦福大学空间智能团队取得了重大突破，开发出一种前所未有的 AI 模型，能够从单张静态图片生成可交互的 3D 场景。

这项开创性的技术为 AI 领域的图像生成和交互能力树立了新的标杆。以往的 AI 工具通常将照片转换为静态的 3D 模型或场景，而李飞飞团队的模型则创造了能够实时渲染和交互的动态 3D 环境。

该 AI 工具通过浏览器实现，用户可以自由使用箭头键或鼠标来探索这些由 AI 生成的场景。通过调节模拟景深和推拉变焦的滑块，用户可以增强视觉体验的层次感和真实感。

此外，该工具还支持交互操作，用户可以调整摄像机位置和视野，更改对象颜色，创建聚光灯特效和动态效果。这些交互功能为用户提供了对场景的全面控制，让他们能够沉浸式地探索和与场景互动。

李飞飞团队的系统属于一种被称为“世界模型”的 AI 范畴，该范畴能够模拟游戏和 3D 环境。与现有模型不同的是，该团队的技术通过预测 3D 场景来克服了伪影和一致性问题。

该模型的优势在于，用户可以实时控制和移动场景，而场景一旦生成，就会持久存在，即使用户移开视线再回来也不会发生改变。这为用户提供了高度的操控性和一致性。

World Labs 网站上展示了一段演示视频，展示了这项技术如何将一张静止的自然景观图片转换为逼真的交互式 3D 场景。用户可以穿过森林、缩放花朵的细节，甚至探索隐藏在场景中的物体。

李飞飞团队相信，他们的 AI 模型将改变电影、游戏和虚拟世界的创作方式。通过生成可控且一致的三维内容，用户可以轻松布置角色和精确控制镜头调度。

目前，World Labs 已经开放了候补名单申请，并邀请创作者将其整合到他们的工作流程中。随着进一步的开发和测试，该模型预计将在未来几年推出正式产品。

World Labs 由李飞飞、贾斯汀·约翰逊、克里斯托夫·拉斯纳和本·米尔登霍尔共同创立，他们都是 AI 领域的资深专家。该公司总部位于旧金山，拥有 20 名员工，并已从 Geoffrey Hinton、Jeff Dean 和 Eric Schmidt 等知名投资者那里筹集了超过 2.3 亿美元的资金。

李飞飞的愿景是赋予 AI 以空间智能，即行动能力。她认为，要想让 AI 突破当前的局限性，就需要让它不仅能够感知和说话，还要能够行动。

World Labs 的创始人表示，他们的模型与快速消退的“元宇宙”热潮不同。他们认为，世界模型能够填补元宇宙缺乏交互内容的空白，为用户提供真正沉浸式和交互的体验。

原创文章，作者：睿鸿在线，如若转载，请注明出处：https://mip.orihonor.com/2024/12/09/23822.shtml