OpenAI Codex 新增后台运行功能,可自主操作电脑应用

Ars Technica AI··作者 Samuel Axon

关键信息

Codex 可在 macOS 上并行运行多个代理而不干扰用户操作;支持提前数小时甚至数周安排任务,并利用 GPT-4 Vision 进行图像生成和网页交互。

资讯摘要

OpenAI 发布了 Codex 桌面应用的重大更新,引入了后台电脑操作功能,使 AI 能像人类一样通过视觉识别、点击和键盘输入自主控制各类程序。这项功能让 Codex 在用户继续使用其他应用时执行前端开发迭代、应用测试或数据处理等任务。它还支持提前数小时甚至数周安排任务,并在指定时间自动唤醒执行。

新版本增加了内置网页浏览器,用户可以查看并标注 Codex 的操作过程,类似团队对设计稿提供反馈的方式。此外,Codex 现在可调用 gpt-image-1.5 模型生成图像用于原型图和文档。这些改进使 Codex 成为 OpenAI 更宏大‘超级应用’愿景的核心工具,旨在将 AI 代理整合进各种工作流中。

OpenAI Codex 新增后台运行功能,可自主操作电脑应用

资讯正文

OpenAI的Codex桌面应用程序新版本今日面向用户发布。该版本带来了多种全新功能和改进,涵盖从开发人员能力扩展到非开发人员知识工作的应用,以及为公司所谓的“超级应用”奠定基础。

目前最引人注目的是Codex能够在后台执行任务的能力;OpenAI声称它可以在不干扰你当前桌面操作的情况下完成这些任务。

OpenAI在博客文章中解释了此次更新:

通过后台计算机使用功能,Codex现在可以通过自己的光标查看、点击和输入文字来使用你电脑上的所有应用程序。多个代理可以并行处理Mac上的任务,而不会干扰你在其他应用程序中的工作。对开发者而言,这有助于迭代前端更改、测试应用程序,或在没有公开API的应用程序中工作。

此外,Codex现在可以安排在未来数小时、数天甚至数周后执行的任务,并在适当时间唤醒自己完成这些任务。

它还新增了一个内置网页浏览器。这使你可以评估Codex正在进行的网络体验,并能对页面特定部分留下评论,给出指令,类似于组织目前常用的一些工具,用于向网页设计师和开发者提供反馈。另外,新增了利用gpt-image-1.5生成图像的功能,这些图像可以用于原型设计等场景。

来源与参考

  1. 原始链接
  2. New Codex features include the ability to use your computer in the background