题材相关新闻
2025年3月10日:
智元发布首个通用具身基座大模型GO-1,GO-1开创性提出Vision-Language-Latent-Action(ViLLA)架构。该架构由VLM(多模态大模型)+ MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
题材相关介绍
一、技术定义与核心原理
动作捕捉:是一种通过传感器、摄像头等设备记录运动物体关键部位(如人体关节)的空间位置和姿态数据,并将其转化为计算机可处理的三维运动轨迹的技术。
其核心流程包括:
1、数据采集:在目标对象上部署标记点(Marker)或传感器,通过光学、惯性或电磁等方式捕捉运动信号。
2、数据处理:利用计算机视觉、惯性导航等算法将原始数据转换为骨骼动画或物理模型可驱动的坐标信息。
3、动作映射:将数字化动作应用于虚拟角色、机器人或分析系统,实现动作复现或行为分析
二、低成本方式获得高质量数据是人形机器人大规模量产前要解决的关键问题
数据是人形机器人AI/具身智能与传统 AI的最大区别之一,数据量提升是人形机器人通用性提高的重要途径。人形机器人追求的是能够像人类一样思考、运动,精确地模仿人类动作是实现这一目标的重要路径。高质量的人类运动训练数据能提升机器人的灵活性和协调性。相比于工业机器人仅具备处理单一或有限范围问题的能力,通过精确编程实现。人形机器人面向更广泛、更多样的泛化任务。泛化能力提升需要海量的3D数据进行训练。
数据精度直接影响到机器人准确复制人类动作的能力。即使是运动数据中的微小错误,也可能导致机器人误操作或损坏,尤其是在需要精细运动技能的任务以及与人的互动过程中。
因此,大规模、高质量、低成本的数据采集是当前人形机器人发展的关键。
三、动作捕捉或是当下人形机器人最主流的数据采集方式
人形机器人数据采集方法包括遥控操作、动作捕捉和大模型三大类,而将动作捕捉与AI学习算法结合,正使得人形机器人越来越多地高精度模仿人类动作。
动作捕捉的基本原理是开发人员重复执行任务,对应他的每个动作将被动作捕捉技术仔细捕捉,远程操作过程中,人形机器人将将在开发人员旁边执行相同的操作,并通过记录的动作数据学习如何移动,因而动作捕捉采集的运动数据精度更高,才能能力更全面。
动作捕捉按技术原理主要分为光学式、惯性式。
(1)光学式基于光学原理完成物体捕捉和定位,通常借助整套光学摄像头完成动作捕捉。
(2)惯性动作捕捉:利用惯性传感器测量被测物体的加速度、方向、倾斜角度等。
人形机器人在运动过程中,更多涉及检测平衡、跌倒、抗扰的需求,因而采用惯性动作捕捉可实现更精准的数据采
动态捕捉企业除拥有传感器、整套动捕装备研发生产能力外,在软件SDK开发,以及大数据的积累也是企业的核心能力。