OPPO开源端侧Android AI代理X-OmniClaw

The Decoder·5月17日 15:39 UTC·作者 Jonathan Kemper

关键信息

根据OPPO的技术报告，X-OmniClaw把感知、记忆和行动都放在手机本地完成，并使用OCR和端侧grounding模型等组件来识别可点击的界面元素。它还通过克隆用户行为来生成可复用技能，包括deeplink快捷入口，并在过滤敏感信息后，将相册照片整理成可搜索的基于Markdown的语义记忆。

资讯摘要

OPPO的Multi-X团队发布了X-OmniClaw，并将其开源为一个Android AI代理，它不是运行在云端虚拟Android实例里，而是直接运行在实体手机上。OPPO在技术报告中明确把它与RedFinger、阿里云无影和腾讯云手机等方案区分开来，因为这些服务把代理放在数据中心里运行，因此无法访问本地传感器或私人设备数据。X-OmniClaw的核心感知、控制和应用交互逻辑都放在端侧完成，只有在需要更高层次推理时才会调用云端语言模型。该系统把摄像头、屏幕和语音三种感知通道合并到一条流水线中，由视觉语言模型先理解用户请求和当前场景，再决定是否执行动作。

报告中的一个例子是，用户拿着相机对准商品并询问“这个在淘宝上多少钱”，系统会先在内部重写为结构化查询，再去执行搜索和价格比较。另一个重点是记忆模块：X-OmniClaw会在空闲时把相册照片压缩成关于物体、场景和事件的语义描述，并保存到Markdown文件中，同时先过滤敏感信息。系统还通过行为克隆学习用户的操作路径，把常用应用的启动流程抽象成可复用技能，后续可直接通过deeplink进入目标页面，而不是重新回放完整点击路径。在界面识别上，它结合了OCR、XML结构和grounding模型，以便在广告较多或结构复杂的界面里找到准确的可点击元素。

资讯正文

Oppo 开源 Android AI 代理 X-OmniClaw，可使用你的摄像头、屏幕和语音，而无需离开手机

要点

- Oppo 的 Multi-X 团队发布了 X-OmniClaw，这是一个面向 Android 的开源 AI 代理，能够利用手机的摄像头、屏幕和语音在各个应用之间执行任务，而且全部直接运行在物理设备上。

- 该系统整合了多个感知通道，会将图库照片在本地处理成可搜索的文本记忆，并通过模仿用户行为来学习，从而自主复制操作。

- 演示中，X-OmniClaw 展示了对比摄像头拍到的商品价格、作为悬浮助手解题，以及独立根据用户图库创建相册的能力。

Oppo 的 Multi-X 团队发布了 X-OmniClaw，这是一个开源代理，能够调用摄像头、屏幕和语音，在真实的 Android 应用中完成任务，而且整个过程无需通过你手机的云端镜像。

在这份技术报告中，Oppo 的 AI Center 清楚地划分了其方案与 RedFinger、阿里云无影和 Tencent Cloud Phone 等云手机平台之间的区别。那些服务是在数据中心里的虚拟化 Android 实例中运行代理。这意味着它们无法接触本地传感器、摄像头或私密数据。

X-OmniClaw 走的是相反路线。它直接运行在物理 Android 设备上。感知、控制和应用交互的核心逻辑都在手机本地完成。报告称，只有在需要时，云端语言模型才会作为高层推理的“燃料”被调用。报告没有说明具体涉及哪些本地模型，但列出了诸如设备端 grounding 模型和用于检测可点击 UI 元素的 OCR 等组件。

摄像头、屏幕和语音汇入同一条流水线

该代理将三种感知通道打包进同一条流水线。视觉语言模型会先结合用户请求解读场景，然后再触发任何操作。

在研究人员的示例中，用户举着摄像头问：“这个在淘宝上多少钱？”系统会在内部将其改写为“淘宝上 Evian 喷雾的价格”，然后才把结构化意图交给执行模块。

相册变成可搜索的记忆

为了实现长期记忆，X-OmniClaw 会将本地数据压缩为语义条目。在空闲时，图库照片会被处理成对物体、场景和事件的简要描述，然后存储到一个 Markdown 文件中。

每条记录在保存前都会经过过滤器，以去除敏感信息。报告指出，与云端视觉相关的上传风险值得警惕。报告称，下一步是转向设备端模型，这样原始图像就无需离开手机。

克隆点击路径取代逐步回放

与其从头规划每一步操作，代理会把用户行为克隆成可复用的技能。它会提取某个应用页面的完整启动命令，并在下次通过 deeplink 直接跳转，而不是重新回放原始的点击路径。

如果这一步失败，系统会按顺序回退到更简单的启动方法。为了检测可点击元素，X-OmniClaw 将 XML 结构数据与一个 grounding 模型和文本识别结合起来。这有助于处理广告很多的界面，因为仅靠 XML 无法精确锁定要点击的目标。

从查价到作业辅导

在第一个场景中，用户把摄像头对准某个商品并询问价格。该代理会跳转到购物应用，滚动页面，截取屏幕截图，并通过视觉语言模型读出价格和促销数据。像“打开第二个商品”这样的后续指令无需额外 grounding 也能完成。

在另一个例子中，X-OmniClaw 充当“ScreenAvatar”，也就是一种“数字替身”，按指令处理屏幕上的任务，比如依次完成一系列练习题。

第三个演示展示了系统响应“把所有鹦鹉照片做成一个精选相册”的请求。它会收集匹配的文件，通过 deeplink 跳转到视频编辑应用的一键成片工具，并通过多次点击选择这些图片。

在第四个例子中，用户先手动克隆了一次进入某个深层嵌套的折扣页面的路径。下次只需一条语音指令，就能重新打开那个精确的子页面，即使该应用并不提供公开 deeplink。

这个项目建立在开源的 HermesApp 代码库之上，处于更侧重 PC 的 OpenClaw 与由涌现能力驱动的 Nous Research 的 Hermes Agent 之间。代码和资源都已在 GitHub 上提供。

谷歌最近借助 Gemma 4 展示了，智能手机上的完全本地模型已经可以充当代理。在演示应用“Google AI Edge Gallery”中，该模型使用 agent 技能查询 Wikipedia、生成二维码，或打开带趋势图表的情绪追踪器。

从方法上看，该系统建立在字节跳动的 UI-TARS 之上，后者是一种纯视觉 GUI 代理，只依赖截图和坐标。X-OmniClaw 将这种方法与结构化 XML 数据以及本地设备执行结合起来，以降低纯视觉流水线在动态界面上容易出现的错误率。

来源与参考

收录于 2026-05-18