李飞飞团队突破:一张图生成3D场景,开启AI空间智能新篇章
人工智能领域影响力最大的女性和华人之一,AI学者、斯坦福大学教授李飞飞带领的创业项目World Labs取得重大突破。12月2日,World Labs公布了其第一个成果:能用单张静态图片生成交互式、可修改的3D场景。
与现有的AI工具将照片转换为3D模型和场景不同,World Labs生成的场景具有交互性,用户可以使用浏览器实时渲染,通过键盘或鼠标探索场景。
具体而言,该AI工具提供了可调节的滑块,可控制模拟景深和推拉变焦,增强场景真实感和层次感。此外,用户还可以调整相机位置和视野、更改对象颜色、创建聚光灯特效和动态效果。
World Labs表示,他们的系统属于一种新兴的人工智能范畴:世界模型。该模型可以模拟游戏和3D环境,但与现有的模型相比,他们的模型伪影和一致性问题更少。
与预测像素的传统生成模型相比,预测3D场景具有多重优势。生成的场景更加持久,一旦生成便一直存在,不会因视线移动而变化;用户可以实时控制和移动场景;可以仔细观察细节或探索隐藏物体。
“大多数生成式AI工具生成的都是图像或视频等二维内容,” World Labs表示,“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”
目前,World Labs已对公众开放Waitlist候补名单申请。作为开发和测试的一部分,一些创作者已将其整合到他们的工作流程中。内容创作者埃里克·索洛里奥发现,这项技术完美填补了他创作过程中的空白,使其角色布置和镜头调度更加容易。
World Labs强调,目前公布的成果仅是“3D原生生成AI未来的一个缩影”。AI工具仍有改进空间,例如用户的移动范围限制在一个较小区域,超出边界会遇到限制。有时也会出现渲染错误,如对象之间不自然融合。
据TechCrunch报道,World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资,现公司估值超过10亿美元,计划在2025年推出首款正式产品。
World Labs于今年1月成立,由李飞飞与贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)共同创立。三人均拥有丰富的AI领域经验。目前,World Labs总部位于旧金山,拥有20名员工。
在李飞飞的构想中,“具备行动能力是所有空间智能生物与生俱来的,因为它将感知与行动联系起来。”她认为,“如果想让AI超越其当前能力,我们需要的是,不仅仅能够看到、会说话的AI,而且是一个可以行动的AI。”
然而,有记者指出,World Labs的愿景与此前迅速消退的热潮概念“元宇宙”相似。对此,World Labs的创始人解释说,元宇宙之所以短暂,是因为当时的热潮基于一些有前景的硬件,但缺乏真正的互动内容。他们认为,世界模型或能够填补这一空白。
李飞飞团队的突破标志着AI空间智能领域的新篇章。通过生成交互式、可修改的3D场景,World Labs赋予AI前所未有的行动能力和感知能力。这项技术在电影、游戏、模拟和数字呈现等领域拥有广阔的应用前景,有望彻底改变我们与数字世界互动的方式。
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/05/21683.shtml