斯坦福推出IKEA视频手册数据集,实现家具组装指令场景4D对齐
斯坦福大学Vision Lab推出了IKEA视频手册数据集,该数据集通过将组装视频和说明书进行4D对齐,为人工智能理解和执行复杂空间任务提供了新的挑战和研究基准。
背景
随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中,理解和执行说明书是一个多层次的挑战,需要精确的空间理解能力。
IKEA视频手册数据集的突破
IKEA视频手册数据集首次实现了组装指令在真实场景中的4D对齐。它包含:
* 137个手册步骤细分为1120个具体子步骤,捕捉了完整的组装过程。
* 通过6D姿态追踪,精确记录每个部件的空间轨迹。
* 在视频帧、家具组装说明书和3D模型之间建立密集对应关系。
丰富的家具类型与场景
数据集涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。每种家具都包含完整的3D模型、组装说明书和实际组装视频。
这些视频来自90多个不同的环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。
真实世界的复杂性
来自互联网的真实视频呈现了更丰富的挑战,包括:
* 部件经常被手或其他物体遮挡
* 相似部件识别
* 摄像机频繁移动、变焦
* 室内外场景、不同光照条件
这些真实场景下的复杂性,让数据集更能反映实际应用中的难点。
可靠的标注流程
为了获得高质量的标注,应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统,包括:
* 识别关键帧,确保片段内的一致性
* 使用2D-3D对应点和RANSAC算法进行相机参数估计
* 通过多视角验证和时序约束保证标注质量
核心任务实验评估
团队设计了多个核心任务来评估AI系统在家具组装和空间推理方面的能力,包括:
* 基于3D模型的分割与姿态估计
* 视频目标分割跟踪
* 基于视频的形状组装
实验结果揭示了当前AI模型的局限性:
* 视频理解能力不足
* 空间推理受限
未来展望
IKEA视频手册数据集为空间智能研究提供了一个重要的评估基准。它将推动AI系统真正理解和执行复杂的空间任务,如:
* 通过AR眼镜指导家具组装
* 机器人自主组装家具
作者信息
* 第一作者:刘雨浓,斯坦福大学计算机科学硕士生
* 指导教授:吴佳俊,斯坦福大学助理教授
* 联合指导:刘蔚宇,斯坦福大学博士后研究员,李曼玲,西北大学计算机科学系助理教授
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/04/21231.shtml