VisionClaw AI代理让雷朋Meta眼镜加速日常任务完成

The Decoder··作者 Tomislav Bezmalinović

关键信息

VisionClaw实现了13%至37%的任务提速,用户努力程度下降了7%到46%,但在处理收据等小或复杂视觉内容时记笔记任务成功率降至约58%。

资讯摘要

该研究介绍了VisionClaw,这是一种运行在雷朋Meta智能眼镜上的始终在线AI代理,通过摄像头和麦克风持续监控用户的周围环境,并利用Gemini Live和OpenClaw执行电子邮件撰写、网络搜索和设备控制等数字任务。在12名参与者的对照实验中,VisionClaw优于仅具备感知功能的系统和基于智能手机的代理,在保持相似成功率的同时降低了心理负担和时间压力。

一项为期55天的实地研究显示,四位研究人员共生成555次语音交互,其中信息检索(30%)和购物(19%)最常见,并发现了多步对话和自发记忆捕捉等新交互模式。结果表明,人们正从孤立的语音指令转向持续、情境感知的AI交互方式。

VisionClaw AI代理让雷朋Meta眼镜加速日常任务完成

资讯正文

Always-on Ray-Ban Meta眼镜搭载OpenClaw技术在新研究中加快日常任务处理速度

一个研究团队开发了专为智能眼镜设计的OpenClaw代理,以探究持续感知型AI如何改变人们使用代理式AI系统的方式。

来自科罗拉多大学、光州科学技术院和谷歌的研究人员推出了VisionClaw,这是一种始终在线的代理型AI,将连续的第一人称感知与数字任务的自主执行相结合。

该团队旨在弥合数字世界与现实世界的鸿沟:AI代理可以运行软件并处理网络上的任务,但无法感知物理环境;而智能眼镜虽然能通过摄像头和麦克风捕捉周围场景,却几乎无法独立行动。

借助VisionClaw,研究人员希望了解始终在线的AI是否能在日常生活中发挥作用,以及当感知与行动融合在一个系统内时,现实交互会发生怎样的变化。

VisionClaw的工作原理

VisionClaw通过一款定制手机应用程序,将无显示屏的Ray-Ban Meta眼镜连接至Gemini Live和OpenClaw。眼镜会持续将用户周围环境的音频和单帧图像传输给Gemini,后者处理多模态输入后,或直接语音回复,或通过OpenClaw启动任务。该代理调用浏览器、邮件、日历或网络搜索等工具完成操作,并将结果反馈给语言模型。这一设置实现了第一人称持续感知与代理式数字任务执行的联动。

研究人员进行了两项实验,以检验VisionClaw的实际表现以及人们如何实际使用此类系统。

在第一项研究中,他们对比了VisionClaw与两种简化版系统,共有12名参与者:一种是始终在线的AI,安装在Ray-Ban Meta眼镜上,能感知环境但无法执行通用代理任务;另一种是智能手机版本的OpenClaw,可处理代理任务但缺乏对环境的持续感知。参与者需完成四项涉及实物或纸质文件的任务,例如从纸质材料中记笔记、撰写邮件、研究产品或控制设备。

更快的结果,更少的努力

根据论文所述,VisionClaw根据不同任务,完成效率提高了13%至37%,用户评价其任务负担降低了7%至46%。心理努力、时间压力和挫败感均明显下降。整体成功率统计学上相近,但在记笔记任务中,VisionClaw的表现约为58%,因为眼镜摄像头难以可靠捕捉小件或视觉挑战性强的物品(如收据)。

研究人员写道:“结果表明,将感知与执行整合在一起,相比非始终在线或非代理基线,能够实现更快的任务完成速度并减少交互开销。”

在一项新的实地研究中,研究人员考察了VisionClaw在日常使用中的表现。论文的四位作者亲自使用该系统长达一段时间,累计记录了55个活跃参与者日,期间共生成了555次语音启动交互,总使用时长达到25.8小时。研究人员分析了人们实际如何使用VisionClaw,并识别出六大使用类别:信息检索(30%)、购物(19%)、保存内容(16%)、沟通(14%)、记忆(12%)和控制(9%)。

除了这些类别外,实地研究还揭示了四种新兴的交互模式:与AI代理进行开放式、多步骤的对话;自发捕捉并稍后回忆信息;更隐蔽但有时可靠性较低的无屏幕AI使用方式;以及随着系统积累个人数据而逐渐提升的实用性。研究人员指出,这表明人机交互正从孤立的语音命令向持续、情境驱动的使用转变。

“除了性能提升之外,部署结果揭示了交互方式的变化:任务在正在进行的活动中被机会性地触发,执行过程也越来越倾向于委托而非手动控制。这些结果表明了一种可穿戴AI代理的新范式,其中感知与行动持续耦合,以支持情境化、无需双手的交互,”研究人员写道。

VisionClaw:已在GitHub开源

作者认为,VisionClaw的意义不仅在于具体应用场景,更指向一种新型的人机交互方式。与其像传统语音助手那样响应单次指令,一个始终在线的系统更像是一个持续、情境感知的伙伴,其感知、记忆和行动协同工作。他们也指出了开放性的挑战:持续录音带来的隐私风险、处理大量个人数据的难题,以及设计在后台保持无感的系统需求。

从技术角度看,值得注意的是,研究人员使用的是没有显示屏的Ray-Ban Meta眼镜,尽管Meta在美国已推出内置显示屏的版本。显示屏能显著扩展并简化AI使用体验,通过直接将结果呈现在用户视野中,使其更容易快速验证。

方法论上,小样本量限制了我们能得出的结论:第一项研究仅包含12名参与者,第二项研究仅有4人。更大的问题是,这项实地研究完全由论文的四位作者完成——他们正是系统的设计者,对系统运作机制非常熟悉。谷歌研究人员也参与了这项研究,而谷歌表示计划在今年晚些时候基于Android XR和Gemini发布AI眼镜。因此,这项研究不应被视为完全无偏的评估。

论文《VisionClaw:通过智能眼镜实现的始终在线AI代理》可在线免费获取,而VisionClaw本身也已在GitHub上开源。

最新研究显示,由OpenClaw驱动的始终开启的Ray-Ban Meta智能眼镜可加快日常任务的处理速度。

订阅THE DECODER以获得无广告阅读体验、每周AI通讯、每年六次独家「AI雷达」前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

  1. 原始链接
  2. Always-on Ray-Ban Meta glasses powered by OpenClaw speed up everyday tasks in new study

收录于 2026-04-20