DeepMind 重新构想 AI 时代的鼠标光标

The Decoder··作者 Maximilian Schreiner

关键信息

DeepMind 表示,像素可以被转化为“结构化实体”,例如地点、日期或对象;文中举例称,手写笔记可以变成可交互的待办清单,暂停的视频画面可以变成预订链接。文章也指出,这并不会取代复杂任务所需的提示词工程;它主要是简化短而日常的对话式交互,并与截图或红箭头等视觉标记方法形成互补。

资讯摘要

DeepMind 正在探索一种名为“指针工程”的新交互模式,它试图把鼠标光标从单纯的指向工具,变成能够为 AI 系统携带上下文的输入方式。研究员 Adrien Baranes 和 Rob Marchant 认为,现有 AI 工具往往要求用户把上下文拖进独立窗口,而他们希望相反的流程:让界面把上下文带给模型。按照这一思路,基于 Gemini 的光标会利用光标所在位置以及周围的视觉和语义线索,推断用户具体指向什么。这样一来,用户就可以依靠“修复这个”或“把那个移到这里”之类的简短指令,也可以配合语音或手势一起使用。DeepMind 还表示,像素可以被解释为地点、日期或对象等“结构化实体”,例如手写便签可以变成可交互的待办清单。

文章举例称,暂停的视频画面也可以变成预订链接,说明光标能够成为触发更丰富 AI 操作的入口。文中还提到,这些原则已经被纳入 Gemini in Chrome,用户可以直接选中网页内容并就其提问。据称,在即将推出的 Googlebook 上,这一功能会以“Magic Pointer”的名字发布。文章同时强调,这并不是要取代提示词工程,因为复杂任务仍然需要更精确的描述。它的主要目标,是通过降低把上下文交给模型的成本,来简化日常、类似聊天的交互。

DeepMind 重新构想 AI 时代的鼠标光标

资讯正文

从 Prompt 到 Pointer Engineering:Deepmind ცდილ重新发明面向 AI 时代的鼠标光标

Pointer Engineering:Deepmind 希望把鼠标光标变成 context engineering 中的关键变量。

Deepmind 研究员 Adrien Baranes 和 Rob Marchant 写道:“因为典型的 AI 工具生活在自己的窗口里,用户需要把自己的世界拖进其中。我们想要相反的方向。” 与其依赖精确的提示词,一个由 Gemini 驱动的指针应当捕捉光标周围的视觉和语义上下文。随后,用户就可以配合语音和手势,使用像“修复这个”或“把那个移到这里”这样的简短指令来工作。

据 Deepmind 介绍,像素会被转化为“结构化实体”,例如地点、日期或物体。一张手写便签会变成可交互的待办清单,一帧暂停的视频会变成预订链接。这些原则已经开始融入 Chrome 中的 Gemini,用户可以直接选中网页中的部分内容并就其提问。在即将推出的 Googlebook 上,这一功能将以“Magic Pointer”的名义上线。

这不会取代 prompt engineering,因为更复杂的任务仍然需要精确描述。其他工具则依赖截图或手绘标记,比如图像和视频编辑器里的红色箭头,它们充当用于详细提示词的视觉锚点。Deepmind 的做法主要是通过减少把上下文交给模型所需的工作量,来简化简短、类似聊天的日常交互。

来源与参考

  1. 原始链接
  2. From Prompt to Pointer Engineering: Deepmind tries to reinvent the mouse cursor for the AI era

收录于 2026-05-14