谷歌DeepMind发布Gemini Robotics-ER 1.6,提升机器人规划与感知能力
The Decoder··作者 Matthias Bastian
关键信息
该模型结合代理式图像处理与代码执行来解析仪表上的小细节,再利用世界知识得出准确读数。它可通过Gemini API和Google AI Studio获取,开发者还可使用Colab示例进行测试。
资讯摘要
谷歌DeepMind发布了Gemini Robotics-ER 1.6,这是一种用于增强机器人决策能力的下一代模型。它能让机器人基于视觉输入和外部工具(如谷歌搜索或视觉语言动作模型)自主规划行动。该模型在识别物体、计数和验证任务成功方面表现优异,超越了早期版本。
其关键功能是能够读取复杂的仪表(如压力表和液位计),通过放大图像、用代码计算比例并结合上下文知识解读结果。这一能力由DeepMind与波士顿动力公司合作开发,使Spot机器人可执行系统巡检任务。开发者可通过Gemini API或Google AI Studio访问该模型,还可使用Colab笔记本进行实验。

资讯正文
Google DeepMind的Gemini Robotics-ER 1.6为机器人提供了更敏锐的规划与感知能力
与波士顿动力公司合作开发的读取压力表和观察窗等功能也得到显著提升。该模型结合代理式图像处理与代码执行:它会放大细节以捕捉小显示屏内容,利用指针功能和代码计算比例及距离尺度,再结合世界知识解读读数。据报道,波士顿动力公司的Spot机器人已使用该功能进行系统巡检。
该模型可通过Gemini API和Google AI Studio获取,并提供Colab示例供开发者使用。
来源与参考
收录于 2026-04-18