斯坦福推出IKEA视频教程数据集，实现家具组装指令场景4D对齐

睿鸿在线 • 2024年12月4日下午5:11 • 财经 • 0 views

斯坦福推出IKEA视频手册数据集，实现家具组装指令场景4D对齐

斯坦福大学Vision Lab推出了IKEA视频手册数据集，该数据集通过将组装视频和说明书进行4D对齐，为人工智能理解和执行复杂空间任务提供了新的挑战和研究基准。

背景

随着人工智能技术的快速发展，让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中，理解和执行说明书是一个多层次的挑战，需要精确的空间理解能力。

IKEA视频手册数据集的突破

IKEA视频手册数据集首次实现了组装指令在真实场景中的4D对齐。它包含：

* 137个手册步骤细分为1120个具体子步骤，捕捉了完整的组装过程。

* 通过6D姿态追踪，精确记录每个部件的空间轨迹。

* 在视频帧、家具组装说明书和3D模型之间建立密集对应关系。

丰富的家具类型与场景

数据集涵盖了6大类36种IKEA家具，从简单的凳子到复杂的柜子，呈现了不同难度的组装任务。每种家具都包含完整的3D模型、组装说明书和实际组装视频。

这些视频来自90多个不同的环境，包括室内外场景、不同光照条件，真实反映了家具组装的多样性。

真实世界的复杂性

来自互联网的真实视频呈现了更丰富的挑战，包括：

* 部件经常被手或其他物体遮挡

* 相似部件识别

* 摄像机频繁移动、变焦

* 室内外场景、不同光照条件

这些真实场景下的复杂性，让数据集更能反映实际应用中的难点。

可靠的标注流程

为了获得高质量的标注，应对真实视频带来的挑战，研究团队建立了一套可靠的标注系统，包括：

* 识别关键帧，确保片段内的一致性

* 使用2D-3D对应点和RANSAC算法进行相机参数估计

* 通过多视角验证和时序约束保证标注质量

核心任务实验评估

团队设计了多个核心任务来评估AI系统在家具组装和空间推理方面的能力，包括：

* 基于3D模型的分割与姿态估计

* 视频目标分割跟踪

* 基于视频的形状组装

实验结果揭示了当前AI模型的局限性：

* 视频理解能力不足

* 空间推理受限

未来展望

IKEA视频手册数据集为空间智能研究提供了一个重要的评估基准。它将推动AI系统真正理解和执行复杂的空间任务，如：

* 通过AR眼镜指导家具组装

* 机器人自主组装家具

作者信息

* 第一作者：刘雨浓，斯坦福大学计算机科学硕士生

* 指导教授：吴佳俊，斯坦福大学助理教授

* 联合指导：刘蔚宇，斯坦福大学博士后研究员，李曼玲，西北大学计算机科学系助理教授

原创文章，作者：睿鸿在线，如若转载，请注明出处：https://mip.orihonor.com/2024/12/04/21231.shtml