OPPO开源端侧Android AI代理X-OmniClaw
The Decoder··作者 Jonathan Kemper
关键信息
根据OPPO的技术报告,X-OmniClaw把感知、记忆和行动都放在手机本地完成,并使用OCR和端侧grounding模型等组件来识别可点击的界面元素。它还通过克隆用户行为来生成可复用技能,包括deeplink快捷入口,并在过滤敏感信息后,将相册照片整理成可搜索的基于Markdown的语义记忆。
资讯摘要
OPPO的Multi-X团队发布了X-OmniClaw,并将其开源为一个Android AI代理,它不是运行在云端虚拟Android实例里,而是直接运行在实体手机上。OPPO在技术报告中明确把它与RedFinger、阿里云无影和腾讯云手机等方案区分开来,因为这些服务把代理放在数据中心里运行,因此无法访问本地传感器或私人设备数据。X-OmniClaw的核心感知、控制和应用交互逻辑都放在端侧完成,只有在需要更高层次推理时才会调用云端语言模型。该系统把摄像头、屏幕和语音三种感知通道合并到一条流水线中,由视觉语言模型先理解用户请求和当前场景,再决定是否执行动作。
报告中的一个例子是,用户拿着相机对准商品并询问“这个在淘宝上多少钱”,系统会先在内部重写为结构化查询,再去执行搜索和价格比较。另一个重点是记忆模块:X-OmniClaw会在空闲时把相册照片压缩成关于物体、场景和事件的语义描述,并保存到Markdown文件中,同时先过滤敏感信息。系统还通过行为克隆学习用户的操作路径,把常用应用的启动流程抽象成可复用技能,后续可直接通过deeplink进入目标页面,而不是重新回放完整点击路径。在界面识别上,它结合了OCR、XML结构和grounding模型,以便在广告较多或结构复杂的界面里找到准确的可点击元素。

资讯正文
Oppo 开源 Android AI 代理 X-OmniClaw,可使用你的摄像头、屏幕和语音,而无需离开手机
要点
- Oppo 的 Multi-X 团队发布了 X-OmniClaw,这是一个面向 Android 的开源 AI 代理,能够利用手机的摄像头、屏幕和语音在各个应用之间执行任务,而且全部直接运行在物理设备上。
- 该系统整合了多个感知通道,会将图库照片在本地处理成可搜索的文本记忆,并通过模仿用户行为来学习,从而自主复制操作。
- 演示中,X-OmniClaw 展示了对比摄像头拍到的商品价格、作为悬浮助手解题,以及独立根据用户图库创建相册的能力。
Oppo 的 Multi-X 团队发布了 X-OmniClaw,这是一个开源代理,能够调用摄像头、屏幕和语音,在真实的 Android 应用中完成任务,而且整个过程无需通过你手机的云端镜像。
在这份技术报告中,Oppo 的 AI Center 清楚地划分了其方案与 RedFinger、阿里云无影和 Tencent Cloud Phone 等云手机平台之间的区别。那些服务是在数据中心里的虚拟化 Android 实例中运行代理。这意味着它们无法接触本地传感器、摄像头或私密数据。
X-OmniClaw 走的是相反路线。它直接运行在物理 Android 设备上。感知、控制和应用交互的核心逻辑都在手机本地完成。报告称,只有在需要时,云端语言模型才会作为高层推理的“燃料”被调用。报告没有说明具体涉及哪些本地模型,但列出了诸如设备端 grounding 模型和用于检测可点击 UI 元素的 OCR 等组件。
摄像头、屏幕和语音汇入同一条流水线
该代理将三种感知通道打包进同一条流水线。视觉语言模型会先结合用户请求解读场景,然后再触发任何操作。
在研究人员的示例中,用户举着摄像头问:“这个在淘宝上多少钱?”系统会在内部将其改写为“淘宝上 Evian 喷雾的价格”,然后才把结构化意图交给执行模块。
相册变成可搜索的记忆
为了实现长期记忆,X-OmniClaw 会将本地数据压缩为语义条目。在空闲时,图库照片会被处理成对物体、场景和事件的简要描述,然后存储到一个 Markdown 文件中。
每条记录在保存前都会经过过滤器,以去除敏感信息。报告指出,与云端视觉相关的上传风险值得警惕。报告称,下一步是转向设备端模型,这样原始图像就无需离开手机。
克隆点击路径取代逐步回放
与其从头规划每一步操作,代理会把用户行为克隆成可复用的技能。它会提取某个应用页面的完整启动命令,并在下次通过 deeplink 直接跳转,而不是重新回放原始的点击路径。
如果这一步失败,系统会按顺序回退到更简单的启动方法。为了检测可点击元素,X-OmniClaw 将 XML 结构数据与一个 grounding 模型和文本识别结合起来。这有助于处理广告很多的界面,因为仅靠 XML 无法精确锁定要点击的目标。
从查价到作业辅导
在第一个场景中,用户把摄像头对准某个商品并询问价格。该代理会跳转到购物应用,滚动页面,截取屏幕截图,并通过视觉语言模型读出价格和促销数据。像“打开第二个商品”这样的后续指令无需额外 grounding 也能完成。
在另一个例子中,X-OmniClaw 充当“ScreenAvatar”,也就是一种“数字替身”,按指令处理屏幕上的任务,比如依次完成一系列练习题。
第三个演示展示了系统响应“把所有鹦鹉照片做成一个精选相册”的请求。它会收集匹配的文件,通过 deeplink 跳转到视频编辑应用的一键成片工具,并通过多次点击选择这些图片。
在第四个例子中,用户先手动克隆了一次进入某个深层嵌套的折扣页面的路径。下次只需一条语音指令,就能重新打开那个精确的子页面,即使该应用并不提供公开 deeplink。
这个项目建立在开源的 HermesApp 代码库之上,处于更侧重 PC 的 OpenClaw 与由涌现能力驱动的 Nous Research 的 Hermes Agent 之间。代码和资源都已在 GitHub 上提供。
谷歌最近借助 Gemma 4 展示了,智能手机上的完全本地模型已经可以充当代理。在演示应用“Google AI Edge Gallery”中,该模型使用 agent 技能查询 Wikipedia、生成二维码,或打开带趋势图表的情绪追踪器。
从方法上看,该系统建立在字节跳动的 UI-TARS 之上,后者是一种纯视觉 GUI 代理,只依赖截图和坐标。X-OmniClaw 将这种方法与结构化 XML 数据以及本地设备执行结合起来,以降低纯视觉流水线在动态界面上容易出现的错误率。
来源与参考
收录于 2026-05-18