VisionClaw AI代理让雷朋Meta眼镜加速日常任务完成

The Decoder·4月19日 15:55 UTC·作者 Tomislav Bezmalinović

关键信息

VisionClaw实现了13%至37%的任务提速，用户努力程度下降了7%到46%，但在处理收据等小或复杂视觉内容时记笔记任务成功率降至约58%。

资讯摘要

该研究介绍了VisionClaw，这是一种运行在雷朋Meta智能眼镜上的始终在线AI代理，通过摄像头和麦克风持续监控用户的周围环境，并利用Gemini Live和OpenClaw执行电子邮件撰写、网络搜索和设备控制等数字任务。在12名参与者的对照实验中，VisionClaw优于仅具备感知功能的系统和基于智能手机的代理，在保持相似成功率的同时降低了心理负担和时间压力。

一项为期55天的实地研究显示，四位研究人员共生成555次语音交互，其中信息检索（30%）和购物（19%）最常见，并发现了多步对话和自发记忆捕捉等新交互模式。结果表明，人们正从孤立的语音指令转向持续、情境感知的AI交互方式。

资讯正文

Always-on Ray-Ban Meta眼镜搭载OpenClaw技术在新研究中加快日常任务处理速度

一个研究团队开发了专为智能眼镜设计的OpenClaw代理，以探究持续感知型AI如何改变人们使用代理式AI系统的方式。

来自科罗拉多大学、光州科学技术院和谷歌的研究人员推出了VisionClaw，这是一种始终在线的代理型AI，将连续的第一人称感知与数字任务的自主执行相结合。

该团队旨在弥合数字世界与现实世界的鸿沟：AI代理可以运行软件并处理网络上的任务，但无法感知物理环境；而智能眼镜虽然能通过摄像头和麦克风捕捉周围场景，却几乎无法独立行动。

借助VisionClaw，研究人员希望了解始终在线的AI是否能在日常生活中发挥作用，以及当感知与行动融合在一个系统内时，现实交互会发生怎样的变化。

VisionClaw的工作原理

VisionClaw通过一款定制手机应用程序，将无显示屏的Ray-Ban Meta眼镜连接至Gemini Live和OpenClaw。眼镜会持续将用户周围环境的音频和单帧图像传输给Gemini，后者处理多模态输入后，或直接语音回复，或通过OpenClaw启动任务。该代理调用浏览器、邮件、日历或网络搜索等工具完成操作，并将结果反馈给语言模型。这一设置实现了第一人称持续感知与代理式数字任务执行的联动。

研究人员进行了两项实验，以检验VisionClaw的实际表现以及人们如何实际使用此类系统。

在第一项研究中，他们对比了VisionClaw与两种简化版系统，共有12名参与者：一种是始终在线的AI，安装在Ray-Ban Meta眼镜上，能感知环境但无法执行通用代理任务；另一种是智能手机版本的OpenClaw，可处理代理任务但缺乏对环境的持续感知。参与者需完成四项涉及实物或纸质文件的任务，例如从纸质材料中记笔记、撰写邮件、研究产品或控制设备。

更快的结果，更少的努力

根据论文所述，VisionClaw根据不同任务，完成效率提高了13%至37%，用户评价其任务负担降低了7%至46%。心理努力、时间压力和挫败感均明显下降。整体成功率统计学上相近，但在记笔记任务中，VisionClaw的表现约为58%，因为眼镜摄像头难以可靠捕捉小件或视觉挑战性强的物品（如收据）。

研究人员写道：“结果表明，将感知与执行整合在一起，相比非始终在线或非代理基线，能够实现更快的任务完成速度并减少交互开销。”

在一项新的实地研究中，研究人员考察了VisionClaw在日常使用中的表现。论文的四位作者亲自使用该系统长达一段时间，累计记录了55个活跃参与者日，期间共生成了555次语音启动交互，总使用时长达到25.8小时。研究人员分析了人们实际如何使用VisionClaw，并识别出六大使用类别：信息检索（30%）、购物（19%）、保存内容（16%）、沟通（14%）、记忆（12%）和控制（9%）。

除了这些类别外，实地研究还揭示了四种新兴的交互模式：与AI代理进行开放式、多步骤的对话；自发捕捉并稍后回忆信息；更隐蔽但有时可靠性较低的无屏幕AI使用方式；以及随着系统积累个人数据而逐渐提升的实用性。研究人员指出，这表明人机交互正从孤立的语音命令向持续、情境驱动的使用转变。

“除了性能提升之外，部署结果揭示了交互方式的变化：任务在正在进行的活动中被机会性地触发，执行过程也越来越倾向于委托而非手动控制。这些结果表明了一种可穿戴AI代理的新范式，其中感知与行动持续耦合，以支持情境化、无需双手的交互，”研究人员写道。

VisionClaw：已在GitHub开源

作者认为，VisionClaw的意义不仅在于具体应用场景，更指向一种新型的人机交互方式。与其像传统语音助手那样响应单次指令，一个始终在线的系统更像是一个持续、情境感知的伙伴，其感知、记忆和行动协同工作。他们也指出了开放性的挑战：持续录音带来的隐私风险、处理大量个人数据的难题，以及设计在后台保持无感的系统需求。

从技术角度看，值得注意的是，研究人员使用的是没有显示屏的Ray-Ban Meta眼镜，尽管Meta在美国已推出内置显示屏的版本。显示屏能显著扩展并简化AI使用体验，通过直接将结果呈现在用户视野中，使其更容易快速验证。

方法论上，小样本量限制了我们能得出的结论：第一项研究仅包含12名参与者，第二项研究仅有4人。更大的问题是，这项实地研究完全由论文的四位作者完成——他们正是系统的设计者，对系统运作机制非常熟悉。谷歌研究人员也参与了这项研究，而谷歌表示计划在今年晚些时候基于Android XR和Gemini发布AI眼镜。因此，这项研究不应被视为完全无偏的评估。

论文《VisionClaw：通过智能眼镜实现的始终在线AI代理》可在线免费获取，而VisionClaw本身也已在GitHub上开源。

最新研究显示，由OpenClaw驱动的始终开启的Ray-Ban Meta智能眼镜可加快日常任务的处理速度。

订阅THE DECODER以获得无广告阅读体验、每周AI通讯、每年六次独家「AI雷达」前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

收录于 2026-04-20