斯坦福推出IKEA视频教程数据集,实现家具组装指令场景4D对齐

斯坦福推出IKEA视频教程数据集,实现家具组装指令场景4D对齐

斯坦福推出IKEA视频手册数据集,实现家具组装指令场景4D对齐

斯坦福大学Vision Lab推出了IKEA视频手册数据集,该数据集通过将组装视频和说明书进行4D对齐,为人工智能理解和执行复杂空间任务提供了新的挑战和研究基准。

背景

随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中,理解和执行说明书是一个多层次的挑战,需要精确的空间理解能力。

IKEA视频手册数据集的突破

IKEA视频手册数据集首次实现了组装指令在真实场景中的4D对齐。它包含:

* 137个手册步骤细分为1120个具体子步骤,捕捉了完整的组装过程。

* 通过6D姿态追踪,精确记录每个部件的空间轨迹。

* 在视频帧、家具组装说明书和3D模型之间建立密集对应关系。

丰富的家具类型与场景

数据集涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。每种家具都包含完整的3D模型、组装说明书和实际组装视频。

这些视频来自90多个不同的环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。

真实世界的复杂性

来自互联网的真实视频呈现了更丰富的挑战,包括:

* 部件经常被手或其他物体遮挡

* 相似部件识别

* 摄像机频繁移动、变焦

* 室内外场景、不同光照条件

这些真实场景下的复杂性,让数据集更能反映实际应用中的难点。

可靠的标注流程

为了获得高质量的标注,应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统,包括:

* 识别关键帧,确保片段内的一致性

* 使用2D-3D对应点和RANSAC算法进行相机参数估计

* 通过多视角验证和时序约束保证标注质量

核心任务实验评估

团队设计了多个核心任务来评估AI系统在家具组装和空间推理方面的能力,包括:

* 基于3D模型的分割与姿态估计

* 视频目标分割跟踪

* 基于视频的形状组装

实验结果揭示了当前AI模型的局限性:

* 视频理解能力不足

* 空间推理受限

未来展望

IKEA视频手册数据集为空间智能研究提供了一个重要的评估基准。它将推动AI系统真正理解和执行复杂的空间任务,如:

* 通过AR眼镜指导家具组装

* 机器人自主组装家具

作者信息

* 第一作者:刘雨浓,斯坦福大学计算机科学硕士生

* 指导教授:吴佳俊,斯坦福大学助理教授

* 联合指导:刘蔚宇,斯坦福大学博士后研究员,李曼玲,西北大学计算机科学系助理教授

原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/04/21231.shtml

Like (0)
睿鸿在线睿鸿在线
Previous 2024年12月4日 下午5:05
Next 2024年12月4日 下午5:14

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注