AI 日报

AI 基础设施、代理安全与算力商业化:5 月 31 日技术日报

今天的主线很清晰:AI 正从“模型能力”转向“基础设施、代理系统与商业化规则”的全面竞争。软银、微软、OpenAI、Salesforce 和 Meta 的动作显示,算力、桌面代理、可穿戴设备与企业工作流正在被重新定义,但安全、定价和真实生产力也开始受到更直接的检验。

当天导读

从 27 条资讯中筛选出 16 条

今天的主线很清晰:AI 正从“模型能力”转向“基础设施、代理系统与商业化规则”的全面竞争。软银、微软、OpenAI、Salesforce 和 Meta 的动作显示,算力、桌面代理、可穿戴设备与企业工作流正在被重新定义,但安全、定价和真实生产力也开始受到更直接的检验。

软银把 AI 竞争推向电力与土地规模

法国将迎来软银最高 750 亿欧元的数据中心投资,目标是新增最高 5 吉瓦容量。AI 基础设施竞争正在从模型层面,转向电网、选址和政策层面的长期博弈。

代理系统加速落地,但隔离和滥用风险同步上升

Anthropic 公开 Claude 的沙箱边界,OpenAI 扩展 Codex 的桌面控制能力,而攻击者也开始滥用共享聊天传播恶意软件。代理越强,越需要清晰的隔离和可审计的执行边界。

AI 编码工具的商业模式正在重写

Copilot 转向 token 计费引发强烈反弹,Salesforce 则宣称代理式工作流能显著提速。两条新闻合在一起说明:AI 开发工具正从“卖席位”走向“卖用量”,而效率争议才刚开始。

“更有帮助”的模型,不一定更像人

大规模研究显示,后训练越强调助手性,模型越偏离真实人类回答。对行为研究、政策模拟和临床训练来说,这意味着模型用途与训练目标之间存在明确权衡。

浏览器与可穿戴设备都在变成 AI 入口

从 Comet、Atlas 到 Meta 的 AI 吊坠和智能眼镜,新的入口之争已经从应用扩展到设备。谁掌握用户的浏览器和随身硬件,谁就更接近下一代分发渠道。

AI 正被嵌入更多“真实世界”流程

Pyodide 在浏览器里跑 ASGI,陶哲轩讨论数学分工,AI 虚拟人则进入社交电商。这些案例共同说明,AI 已经从内容生成走向任务执行、知识生产和商业转化的更深层环节。

今日主题

AI 竞争已经不再只看模型分数,而是看谁能掌握算力、把代理嵌入工作流,并把产品变成可持续收费的基础设施。与此同时,围绕安全隔离、定价方式和真实效率的质疑,也在同步升温。

头条:算力与基础设施继续前置

1. 软银计划在法国建设最高 750 亿欧元数据中心(#2157) 软银宣布将在法国投资最高 750 亿欧元,目标新增最高 5 吉瓦容量,第一阶段预计到 2031 年在上法兰西大区实现 3.1 吉瓦。这个项目是其在欧洲最大的 AI 基础设施投资,也把法国推向争夺 AI 枢纽位置的前台。

代理化工作流:从编码到桌面自动化

2. Salesforce 口径中的“代理式开发”提速(#2161) Salesforce 称,借助 Anthropic 的 Claude Code,迁移 33 个 API 端点的工作从估算 231 人日缩短到 13 天;公司还声称开发者产出上升、事故下降。不过,这些数据都来自 Salesforce 自身监控,尚未经过独立审计。

3. OpenAI 将 Codex 扩展到 Windows 11(#2167) Codex 现在能在 Windows 上自主操作桌面应用、文件和资源,并支持通过手机远程启动或监控任务。这让 Codex 从“写代码工具”进一步走向通用电脑代理。

4. 微软与英伟达被曝推进本地 AI 代理电脑(#2165) 报道显示,双方正准备展示以英伟达芯片为主处理器的 Windows 电脑,并强调本地运行代理能力。若落地,这可能把硬件、Windows 和代理式工作流更紧密地绑在一起。

安全与隔离:代理越强,边界越重要

5. Anthropic 详解 Claude 的沙箱隔离(#2158) Anthropic 罕见地公开了 Claude.ai、Claude Code 和 Cowork 的 containment 设计,包括 gVisor、Seatbelt、Bubblewrap、完整虚拟机、文件系统边界和出站网络控制。这类细节对理解“模型即使出错,也能被限制在多小范围内”至关重要。

6. 共享聊天被滥用于传播恶意软件(#2160) 攻击者开始利用公开分享的 ChatGPT 和 Claude 对话托管恶意诱饵与指令,并借助搜索广告放大传播。问题不在模型本身,而在公开分享机制被包装成可信网页后,反而成了社会工程入口。

生产力争议:更快,还是更贵、更难管

7. GitHub Copilot 转向 token 计费,引发开发者反弹(#2163) 从 6 月 1 日起,Copilot 将从固定订阅改为按 token 用量计费。开发者担心月度成本会从几十美元跃升到数百甚至数千美元,这也是整个 AI 工具行业向“用多少、付多少”转型的缩影。

8. 开发者对 AI 的依赖,未必等于更高效率(#2164) TechCrunch 汇总的研究和案例都指向同一问题:AI 可能让初稿更快,但调试、审查和维护成本也在上升。METR 的经验尤其说明,开发者甚至不愿在没有 AI 的情况下参与对照实验。

9. 研究显示:更“有帮助”的聊天机器人更不像人类(#2159) 大规模研究发现,后训练越强调有用性,模型越不擅长模拟真实人类行为;这一偏差在新一代模型上更明显。对于行为研究、政策模拟和临床训练来说,这意味着“好助手”和“好模拟器”可能并不是同一个目标。

研究、工具与新界面

10. Pyodide 让 ASGI 应用在浏览器中运行(#2162) Simon Willison 演示了如何用 Pyodide + service worker 在浏览器内运行 Python ASGI 应用,并展示了可工作的 Datasette 1.0a31 原型。它为浏览器内 Python 应用的能力边界打开了新路径。

11. 2026 浏览器大战继续升温(#2171) AI 浏览器、隐私浏览器和自动化浏览器正同时争夺入口:Comet、Dia、Neon、Atlas、Aside 等产品把“浏览器”从渲染工具变成任务执行平台。浏览器正重新成为 AI 产品分发的关键战场。

硬件与平台的外延扩张

12. Meta 被曝加码可穿戴设备路线(#2156, #2170) 泄露备忘录显示,Meta 正在推进 AI 吊坠、扩展眼镜产品线,并考虑企业订阅“Wearables for Work”。这说明 Meta 试图把可穿戴设备变成更完整的 AI 平台,而不是单一硬件实验。

其他值得注意的信号

13. 陶哲轩谈 AI 与数学分工(#2166) 他认为,只有当问题建模、策略、执行和验证都被自动化推进时,AI 才可能真正改变数学研究的组织方式。核心约束不是“会不会想”,而是“能不能验证”。

14. AI 虚拟人带着刻板印象做社交电商(#2172) The Verge 报道了 TikTok、Facebook 和 Instagram 上的 AI 网红账号如何用煽情脚本和种族化人设推销代发货商品。它揭示了 AI 生成内容正在被更深地嵌入欺骗性商业模式。

15. SpaceX IPO 的叙事化估值争议(#2169) 评论文章把 SpaceX 传出的超高估值 IPO 描述为一次高风险的叙事交易,提醒市场别把情绪当基本面。即便这条线与纯 AI 不完全重合,它仍反映了当前科技资本市场的投机温度。

一句话结论

今天的新闻把同一个问题讲得很清楚:AI 的下一阶段,不再只是“更聪明”,而是“更深地嵌入基础设施、工作流和商业模式”;而真正的分水岭,将由安全边界、成本结构和可验证的生产力决定。

当日精选 8 条

01

TechCrunch AI

软银计划在法国建设750亿欧元数据中心

·#ai-infrastructure

软银计划在法国建设750亿欧元数据中心

软银集团表示,计划在法国投资最高750亿欧元,约合870亿美元,用于扩建数据中心容量。该项目目标是新增最高5吉瓦容量,第一阶段计划到2031年在法国上法兰西大区实现3.1吉瓦容量。

这是软银在欧洲最大的AI基础设施投资,表明该公司正大举押注未来对大规模算力的需求。与此同时,这也为法国争取成为重要AI枢纽增添了动力,而数据中心扩张如今越来越与电力、土地和电网政策绑定在一起。

软银集团今天宣布,计划在法国投资最高750亿欧元,用于扩建数据中心容量。公司表示,其目标是开发并运营最多5吉瓦的新增容量,这一规模反映出AI基础设施正在快速扩大。第一阶段计划包括在敦刻尔克(Loon-Plage)、Bosquel 和 Bouchain 建设数据中心。这些设施预计到2031年将为上法兰西大区提供3.1吉瓦容量。

软银称,这将是其在欧洲最大的一笔AI基础设施投资。法国经济部长 Roland Lescure 认为,这一宣布证明了总统 Emmanuel Macron 希望法国成为AI价值链各环节领先目的地的雄心。与此同时,美国国内对数据中心建设的反对声正在上升,原因包括环境担忧以及数据中心对电网和电价的影响。尽管如此,软银此前仍宣布将在俄亥俄州建设一座数据中心,并计划由一座新的9.2吉瓦天然气发电厂供电。

首批公布的选址包括敦刻尔克(Loon-Plage)、Bosquel 和 Bouchain,这些项目都属于上法兰西大区的第一阶段部署。软银既是 OpenAI 的投资方也是客户,而此次宣布也发生在外界对数据中心环境影响和电网压力持续争论之际。

查看单篇正文查看原文
02

Simon Willison

·#ai-security

Anthropic 解释 Claude 的产品沙箱隔离

Anthropic 发布了一篇详细的工程文章,说明它如何在 Claude.ai、Claude Code 和 Cowork 中限制 Claude 的行为。文章具体介绍了 gVisor、Seatbelt、Bubblewrap、完整虚拟机、文件系统边界和出站网络控制等隔离层。

这是一份少见而具体的生产级 AI 代理隔离边界说明,对安全和基础设施团队尤其有价值。它有助于说明当模型被利用、行为异常或找到意外执行路径时,哪些资源仍然不会被触达。

Simon Willison 之所以关注这篇 Anthropic 的工程文章,是因为沙箱隔离通常缺乏详细文档,而没有这些细节,就很难判断一个系统到底有多值得信任。Anthropic 的文章说明了它并不是对所有产品使用同一种隔离方式,而是针对不同产品采用不同的 containment 策略。公司表示,它通过进程沙箱、虚拟机、文件系统边界和出站网络控制,来为代理可访问的范围设定硬边界。它举的例子很直接:如果凭据从未进入沙箱,那么无论风险来自用户、模型走出意外路径,还是攻击者,都不可能把这些凭据导出。

文章进一步对应了具体产品的实现方式:Claude.ai 使用 gVisor,Claude Code 在 macOS 上使用 Seatbelt、在 Linux 上使用 Bubblewrap,而 Claude Cowork 在 macOS 和 Windows 上都运行在完整虚拟机里。Willison 还提到,文章里讨论了 Anthropic 曾经遗漏的一些风险,包括他此前报道过的 api.anthropic.com/v1/files 外泄路径。最后,他表示这篇文章让他想重新评估 Anthropic 开源的 sandbox-runtime(srt)项目,因为它现在看起来已经成熟到可以认真试用了。

Anthropic 表示,其目标是在代理可访问范围上建立硬边界,因此如果凭据从未进入沙箱,就无法被窃取。Claude.ai 使用 gVisor,Claude Code 在 macOS 上使用 Seatbelt、在 Linux 上使用 Bubblewrap,而 Claude Cowork 则运行在完整虚拟机中,macOS 上使用 Apple 的 Virtualization framework,Windows 上使用 HCS。

查看单篇正文查看原文
03

The Decoder

更有帮助的聊天机器人更不像人类

·#ai-alignment

更有帮助的聊天机器人更不像人类

一项大规模研究发现,把基础语言模型训练成更有帮助的聊天机器人的后训练,会削弱它们模拟人类行为的能力。随着模型代际更新,这种偏离还在加剧,Qwen3、Llama3 和 OLMo 3 的派生助手模型通常比基础模型更不接近真实人类回答。

这一发现很重要,因为语言模型正越来越多地被当作人类替身,用于行为研究、政策模拟和临床训练。若“更有帮助”的训练会让模型更不像人类,就意味着打造好助手与打造准确的人类模拟器之间存在明显权衡。

一项新的大规模研究指出,把语言模型训练成有用聊天机器人的那些后训练方法,也会让它们更不擅长模拟人类行为。该研究来自一个国际研究联盟,其中包括 Helmholtz Munich 的科学家。研究依托 Psych-201 数据集展开,这是一个基于行为实验转录文本构建的新数据集,旨在大规模衡量行为一致性。Psych-201 包含约 20.8 万名参与者、约 2600 万条单独回答,以及年龄、国籍、问卷答案和其他特征等元数据。这个数据集由来自 35 个以上机构的研究者通过开放式合作完成。研究者比较了 Qwen3、Llama3 和 OLMo 3 系列中的基础模型与其后训练版本。

基础模型主要训练目标是预测下一个词,但它们在预测人类答案方面始终优于经过指令微调、推理优化或视觉扩展的版本。这个结论在不同模型规模和不同家族中都成立,其中推理模型的人类模拟能力下降最明显。研究团队还检验了一个常见解释:助手模型是否只是因为输出更确定、无法捕捉人类行为的自然分布,但在离散选项任务上的准确率分析并不支持这一说法。另一项结果则挑战了一种常用提示技巧:给模型加入参与者特定的人口统计信息来扮演某个角色,效果几乎为零。总体来看,这项研究表明,用于提升有帮助性和正确性的后训练,可能会把模型推离那些更接近人类、但也更混乱和带偏差的行为模式。

这项研究基于 Psych-201 数据集,包含约 20.8 万名参与者和来自数百个行为实验的约 2600 万条回答。研究者发现,差距在语言任务和推理任务中最明显,而且给模型加入参与者的人口统计背景信息,几乎没有效果。

查看单篇正文查看原文
04

The Decoder

攻击者利用共享AI聊天传播恶意软件

·#cybersecurity

攻击者利用共享AI聊天传播恶意软件

安全研究人员表示,攻击者正在滥用公开共享的 ChatGPT 和 Claude 对话来托管恶意软件诱饵和恶意指令。这些活动利用可信平台链接和搜索广告,引诱受害者进入伪造的故障通知、安装指南和支持教程。

由于攻击发生在合法的 AI 域名上,这些链接对用户看起来更可信,也可能绕过部分安全过滤器。这表明生成式 AI 的协作功能可能被重新利用,成为传播恶意软件的社会工程渠道。

攻击者正在利用 ChatGPT 和 Claude 的公开共享功能,通过看起来很正常的对话来传播恶意软件。两个平台都允许用户生成公开聊天链接,而受害者往往是通过搜索引擎中的付费广告而不是直接从平台进入这些链接。由于这些页面托管在可信域名上,安全工具更不容易将其标记为风险内容,用户也更可能放松警惕。Push Security 表示,攻击者会创建模仿官方故障通知、安装指南或支持文档的共享聊天。一个较新的手法是利用 ChatGPT 的代码渲染能力,在共享对话内部直接构造一个逼真的伪错误页面。

随后,该页面会引导用户下载一个带毒的桌面应用。在 Claude 上,攻击者则把共享聊天伪装成苹果支持教程,并加入恶意的 Terminal 命令,诱导用户执行。Push Security 将这种技术命名为 “LLMShare”,而 BleepingComputer 和 Kaspersky 也报道了类似的滥用活动。其核心问题并不是 AI 模型本身,而是公开共享和可被检索的机制被用来把恶意诱饵包装成可信网页。

Push Security 将这种技术称为 “LLMShare”,并表示一种较新的变种利用 ChatGPT 的代码渲染功能,在共享聊天中构造伪造错误页面,然后引导用户下载受感染的桌面应用。在 Claude 上,攻击者伪装成苹果支持并嵌入恶意 Terminal 命令,BleepingComputer 和 Kaspersky 也报道过类似活动。

查看单篇正文查看原文
05

The Decoder

Salesforce称AI代理将迁移从231天缩短到13天

·#ai-agents

Salesforce称AI代理将迁移从231天缩短到13天

Salesforce表示,已将整个软件开发组织迁移到由 Anthropic 的 Claude Code 驱动的代理式工作流,并向全公司开发者开放无限 token 使用。在一个 API 迁移案例中,公司称 AI 辅助工作流把原本估算需要 231 人日的工作缩短到了 13 天。

如果这些数据属实,就说明 AI 代理不仅能提高编码速度,还可能改变大型工程组织的协作方式。这一案例尤其重要,因为它把生产效率提升和事故减少联系在一起,挑战了“更快交付必然牺牲质量”的常见看法。

Salesforce把自己描述为软件工程“代理式转型”最早的大规模案例之一,也就是开发者不再逐行手写代码,而是通过编排 AI 代理来完成开发工作。根据 Salesforce 工程负责人 Srinivas Tallapragada 的发文,公司已经把 Anthropic 的 Claude Code 推广到整个开发组织,并为所有开发者提供无限 token 使用。Salesforce 表示,这让开发者的角色从直接写代码转变为协调专门的代理团队。公司报告称,在 2026 年 4 月,与去年同月相比,每位开发者完成的工作项增加了 50.8%,每位开发者合并的 pull request 增长了 79%,基于机器学习的 Effective Output Score 提升了 151.3%。文章同时指出,这些指标都无法被独立验证。

Tallapragada 认为质量并没有因为产出提升而下降,他引用 Salesforce 自己的 Engineering 360 监控平台,称尽管产出增加,事故数量仍下降了 5%。他说安全护栏和质量标准已经内置到工作流中,但公司并未提供外部审计。Salesforce 还表示,工程师现在不只是使用现成工具,而是在构建可复用的代理式工作流,包括 Claude Code skills、AI Expert Suite 和 Salesforce Foundation Plugins。最具体的例子是将 33 个 API 端点迁移到新的云原生架构:公司估算传统做法需要约 231 人日,而借助基于 Claude 的规则框架、Markdown 文件和参考实现,这项工作在 13 天内完成。公司称,每一轮 pull request 反馈都会回写到规则集中,自动化的 LLM 循环负责构建、修复和验证,无需人工干预,而且迁移任务被拆分到隔离环境中并行执行,最终只产生了 5 个 pull request,其中最大的一个覆盖了 21 个端点并包含完整测试覆盖。

Salesforce表示,与一年前同月相比,2026年4月每位开发者合并的 pull request 增长了79%,每位开发者完成的工作项增加了50.8%,其基于机器学习的 Effective Output Score 提升了151.3%。公司还称事故数下降了5%,但这些说法都来自 Salesforce 自身的监控系统,尚未经过独立审计。

查看单篇正文查看原文
06

Simon Willison

·#pyodide

Pyodide 让 ASGI 应用在浏览器中运行

Simon Willison 发布了一项研究,展示了如何结合 Pyodide 和 service worker 在浏览器中运行 Python ASGI 应用。他还给出了一个基础 ASGI FastCGI 演示,以及一个在浏览器中运行的 Datasette 1.0a31 演示。

这改进了早期仅靠 Web Workers 和拦截导航来实现的 Datasette Lite 方案,因为那种方式会导致 script 标签中的 JavaScript 无法正常执行。若将其推广到 Datasette Lite,可能让更多托管在浏览器中的 Python 应用和插件在无需服务器的情况下正常工作。

Simon Willison 介绍了一项研究项目:使用 Pyodide 和 service worker,把 Python ASGI 应用完全运行在浏览器中。它与他现有的 Datasette Lite 有关,后者本身就是一个基于 WebAssembly、完全在浏览器中运行的 Datasette 版本。最初的实现使用了 Web Workers,并通过自定义代码拦截导航操作,再由 Python 应用生成并返回 HTML。这个方案总体可用,但有一个明显缺点:`<script>` 标签中的 JavaScript 无法执行,因此一些 Datasette 功能以及很多插件会失效。

为了寻找更好的架构,Willison 让 Claude Opus 4.8 通过 Claude Code for web 帮助分析如何在 Pyodide 中借助 Service Workers 运行 ASGI 应用。结果看起来是可行的,他已经发布了一个基础的 ASGI FastCGI 演示,以及一个在浏览器中运行 Datasette 1.0a31 的演示。Willison 说他仍在弄清这种机制的内部工作方式,但一旦理解得更完整,就会考虑把 Datasette Lite 本身升级到这个新方案。

之前的实现虽然可以渲染 HTML,但由于嵌入的 JavaScript 无法执行,导致部分 Datasette 功能和大量插件失效。Willison 表示,他让 Claude Opus 4.8 在 Claude Code for web 中协助研究这种 service worker 方案,并计划在彻底弄清机制后升级 Datasette Lite。

查看单篇正文查看原文
07

TechCrunch AI

GitHub Copilot 代币计费变更引发反弹

·#github-copilot

GitHub Copilot 代币计费变更引发反弹

GitHub Copilot 将从固定订阅制改为按 token 用量计费,变更自 2026 年 6 月 1 日起生效。开发者表示,这一调整可能让高频用户的月度成本大幅上升。

Copilot 是最常用的 AI 编码助手之一,因此这种规模的定价变化会影响个人开发者和小团队。它也反映出整个行业正从简单订阅转向按用量计费的 AI 商业模式,这会让成本更难预估。

TechCrunch 报道称,微软旗下的 GitHub Copilot 正在告别固定月费订阅模式,转而采用基于 token 使用量的计费方式,变更将于 2026 年 6 月 1 日开始实施。文章认为,这一变化对小公司和个人开发者尤其不友好,因为他们可能难以承受每月软件开支的大幅波动。Reddit 和 X 上的用户纷纷贴出截图并发帖抱怨,称新模式可能让账单从几十美元暴涨到数百甚至数千美元。有人直言这次调整“太离谱”,并表示在新价格下该服务已经不再划算。

另有用户展示的例子看起来显示费用从大约 50 美元升到了约 3000 美元。也有一些评论者反驳这种担忧,认为如此夸张的用量通常来自低效工作流和大量“vibe coding”,并不代表正常的专业开发。与此同时,另一派观点则认为,微软此前就是这样设计并鼓励这种使用方式的,因此现在把成本转嫁给用户并不公平。TechCrunch 还表示,已经联系微软寻求评论,但在发稿前未收到回复。

文章提到,一些开发者称自己的月费在新模式下可能从约 29 美元或 50 美元飙升到数百甚至数千美元。批评者认为,这类暴涨可能来自低效的“vibe coding”工作流和过度消耗 token,而支持者则指出微软此前一直鼓励用户广泛使用该产品。

查看单篇正文查看原文
08

TechCrunch AI

开发者对AI的依赖引发效率担忧

·#ai-coding-tools

开发者对AI的依赖引发效率担忧

TechCrunch 报道称,许多开发者现在已经不愿意在没有 AI 编码工具的情况下工作,即使研究显示这些工具整体上可能让他们更慢。文章重点提到 METR 在 2026 年的调查,以及其 2025 年的生产力研究,后者发现 AI 虽然能更快生成代码,但会带来调试、引导和审查的额外成本。

这之所以重要,是因为开发团队正越来越把 AI 视为默认必需品,但证据显示其净生产力收益可能被高估。若 AI 生成的代码带来更多缺陷或维护工作,公司最终可能在长期工程成本上付出比短期提速更高的代价。

TechCrunch 认为,到 2026 年,AI 编码工具已经深度嵌入开发者的工作流,以至于一些工程师甚至不愿意在没有它们的情况下工作。文章的核心是 METR 这家备受尊重的 AI 研究实验室,它原本想更新一项 2025 年的研究,用来比较开源开发者在手工完成任务和借助 AI 完成任务时分别需要多久。那项早期研究发现,开发者主观上觉得自己在使用 AI 后更高效,但研究人员观察到,AI 实际上让他们更慢,因为他们需要花时间修复错误、引导模型,并等待输出完成。到了 2026 年 2 月,METR 试图重复这项实验时却发现无法招募参与者,因为开发者表示即使只是为了研究,也不愿意在没有 AI 的情况下工作。于是,METR 在 5 月发布了一项调查,让技术员工自行汇报 AI 带来的生产力提升,而受访者普遍认为 AI 让他们对组织的价值翻倍。

文章提醒说,这种自我评估未必可靠,尤其是在 tokenmaxxing 逐渐升温的背景下,也就是把 token 使用量当作生产力指标。文中举例称,Amazon 因员工通过过度使用 AI 代理刷榜而关闭了内部 token 排行榜,Uber 也被报道在年初就花光了 2026 年的 AI 预算,但并没有看到明确的生产力提升。文章还引用了多项关于 AI 生成代码会增加维护和修 bug 成本的说法与研究,包括来自代码审查和可靠性工具厂商的数据,以及新加坡管理大学在 4 月发布的报告,该报告警告 AI 生成代码会给真实软件项目带来长期维护开销。即便是 AI 代理的支持者也承认,目前的系统并不是真正可完全托管的自动化方案,例如 Cognition 首席执行官 Scott Wu 就表示,Devin 目前更像是初级到中级程序员之间的水平,而不是可以彻底放手不管的替代品。

METR 表示,它无法重复之前的“手写代码 vs AI”实验,因为开发者即使只是为了研究也不愿意在没有 AI 的情况下参与。文章还提到 tokenmaxxing、Amazon 和 Uber 的内部成本失控,以及 AI 生成代码可能增加维护负担和修复错误工作的担忧。

查看单篇正文查看原文
09

The Decoder

微软与英伟达瞄准本地 AI 代理电脑

·#ai-pcs

微软与英伟达瞄准本地 AI 代理电脑

据报道,微软和英伟达正在准备采用英伟达芯片作为主处理器的 Windows 电脑,并计划在 Computex 和 Build 上展示本地 AI 代理功能。这个方向似乎已经超越 Copilot 的营销包装,转向能够在设备上实际运行代理的系统。

如果属实,这将标志着 AI 电脑进入更激进的阶段,把硬件、Windows 和本地 AI 工作流更紧密地结合起来。它可能影响 PC 厂商、Windows 用户以及开发本地 AI 功能的开发者,尤其是在微软试图把代理能力变成日常计算的一部分时。

微软和英伟达据报道正在联手打造一种新的 AI 电脑类别,首批搭载英伟达芯片、以其作为主处理器的 Windows 系统预计将在下周于台湾 Computex 和微软在旧金山举行的 Build 大会上亮相。根据 Axios 的说法,微软 Surface 和 Dell 都预计会展示相关硬件。报道显示,这并不只是又一次 Copilot 品牌包装,而是更深入地推动 Windows 电脑在本地运行真正的 AI 代理。微软据称已经在为这些设备开发本地代理软件,并且自今年年初以来一直在重点押注 OpenClaw。

公司还在 Omar Shahine 的领导下组建了专门团队,而 OpenClaw 的创始人 Peter Steinberger 目前在 OpenAI 任职,他也计划在 Build 上发表演讲。这个安排让外界猜测微软可能会在新电脑中采用 OpenClaw 框架。报道同时指出,尽管代理会在本地运行,OpenClaw 仍然存在安全性和可靠性方面的担忧。相比之前主打 AI 卖点但效果平平的 Copilot+ PC,这一轮尝试显然更进一步,也更有野心。

Axios 说,首批以英伟达芯片作为主处理器的 Windows 电脑预计下周亮相,微软 Surface 和 Dell 设备都可能出现。软件层面可能会依赖 OpenClaw,这一框架是微软自今年年初以来重点押注的方向,但即使全部在本地运行,安全性和可靠性问题仍然存在。

查看单篇正文查看原文
10

The Decoder

陶哲轩称AI或首次让数学研究分工化

·#ai

陶哲轩称AI或首次让数学研究分工化

陶哲轩认为,AI和形式化验证可能让数学首次出现真正的分工协作,不再由一位数学家独自完成从提出问题到证明、检验和写作的全部流程。 他强调,只有当自动化在问题建模、策略制定、执行和验证等环节同时进步时,这种新模式才可能成立。

如果陶哲轩的判断成立,AI可能把数学从以个人为主的工作方式,转变为更接近工业化协作的研究流程。 这不仅会改变数学研究的组织方式,也可能为其他高度依赖验证的知识工作提供参考。

陶哲轩认为,AI可能从根本上改变数学研究,因为它有机会在数学领域首次带来真正的分工。 在他看来,过去的数学家通常必须独自完成所有环节:提出问题、制定策略、执行证明、检查正确性,以及撰写结果。 他指出,这与工业和自然科学不同,在那些领域里,专业分工早已是常态。 陶哲轩认为,AI和形式化验证可以在协作中补上不同的能力缺口,让人类和机器各自承担擅长的部分。

但他也强调,这种模式只有在多个阶段同时实现自动化时才可行,而不是只会生成想法。 如果AI能够提出策略,却无法可靠地验证,那么结果就会变成大量未经检验的内容。 他还指出,人类仍然不可或缺,因为AI的表现并不稳定,不能在所有任务上都被同等信任。 文章将这一趋势描述为走向“工业化数学”,即由更大规模的AI辅助团队开展更广泛但可能更浅层的研究,而不是由单个研究者长期攻克一个问题。

陶哲轩警告说,如果AI只能生成策略却不能验证结果,就会带来大量未经检验的想法,而不是有效进展。 他认为,一个领域能安全使用多大程度的自动化,取决于它的验证机制有多严格。

查看单篇正文查看原文
11

The Decoder

Codex 增加 Windows 电脑自主控制

·#openai

Codex 增加 Windows 电脑自主控制

OpenAI 已将 Codex 扩展到 Windows 11,并新增了 Computer Use 功能,使其能够自主操作桌面应用、文件和其他资源。它现在也支持通过 iPhone 和 Android 上的 ChatGPT 应用远程启动或监控任务。

这意味着 Codex 不再只局限于代码生成,而是进一步进入更广泛的电脑自动化场景,开发者可以借此测试应用、复现漏洞和审查工作,而不必一直守在电脑前。它也符合 OpenAI 将其工具打造为面向工作和日常生活“超级应用”的更大方向。

OpenAI 已将其 Codex 应用扩展到 Windows 11,并加入了 Computer Use 功能,让系统能够在电脑上与应用、文件以及其他桌面资源交互。报道指出,这意味着即使用户不在电脑前,Codex 也可以继续执行任务。OpenAI 将这一能力定位为适合测试应用、查找漏洞和审查工作内容等场景。该功能并非默认开启,用户需要在 Codex 的设置中手动启用。

文章还提到,用户可以通过 @computer 或 @Paint 之类的命令来指定具体应用。除此之外,Codex 现在也可以通过 iPhone 和 Android 上的 ChatGPT 应用使用,从而远程启动或监控 Windows 机器上的任务。报道称,Computer Use 最早于 4 月在 macOS 上推出,移动端访问则在 5 月上线。整体来看,这次扩展被描述为 OpenAI 打造面向工作和日常生活“超级应用”计划的一部分。

Computer Use 功能可以在 Codex 设置中开启,用户还可以用 @computer 或 @Paint 这类命令来指定某个程序。OpenAI 表示,Computer Use 最早于 4 月在 macOS 上推出,移动端访问则在 5 月跟进。

查看单篇正文查看原文
12

The Decoder

Meta泄露的可穿戴设备路线图

·#meta

Meta泄露的可穿戴设备路线图

一份泄露的内部备忘录显示,Meta计划在2027年春季内部测试一款AI吊坠,扩展其智能眼镜产品线,推出“超感知”型号,并上线名为“Wearables for Work”的企业方案。这些设备据称将运行Meta的Muse Spark AI模型和一款尚未发布的AI代理“Hatch”。

这份备忘录表明,Meta正试图把可穿戴设备变成更大的AI平台,而不只是一个硬件副业,同时也想缓解Reality Labs持续亏损的问题。如果推进成功,这一策略可能强化Meta的消费级生态、带来持续的软件收入,并在AI硬件竞争升温时吸引企业客户。

Meta副总裁Alex Himel的一份内部备忘录勾勒了公司可穿戴业务的整体战略。该计划包含三大支柱:一款新的AI吊坠、扩大智能眼镜产品线,以及面向企业客户的“Wearables for Work”方案。根据The Information看到的内容,Meta希望这些产品既能推动自家AI模型和硬件的采用,也能帮助缩小Reality Labs的亏损。备忘录还提到,这些设备将运行Meta的Muse Spark模型和一款尚未发布的AI代理Hatch。Meta据称计划在2027年春季开始对AI吊坠进行内部测试,也就是业内常说的dogfooding。虽然备忘录没有给出详细规格,但这款吊坠可能会带有摄像头,而且与Meta去年收购的AI吊坠初创公司Limitless有关。

眼镜方面,Meta希望推出“超感知”型号,让摄像头和传感器长时间持续工作,使AI助手能够记录一天中发生的事情,并提供更有上下文的提醒。公司还计划在现有的Ray-Ban Meta和Oakley Meta之外,引入更多眼镜品牌和款式,以覆盖更广泛的用户并提高毛利率。Meta表示,2025年已有超过700万副Meta智能眼镜售出,而Zuckerberg称,AI智能眼镜的日常使用增长极快,是“消费电子领域增长最快的类别之一”。这份备忘录还提出,希望在2026年下半年卖出1000万台可穿戴设备,并在年底前达到680万月活跃可穿戴用户。除了硬件,Meta还希望通过软件订阅盈利,已经为Meta AI推出两档订阅,并在建设开发者平台,让第三方为可穿戴设备开发应用。更大的背景是,AI硬件竞争正在升温,OpenAI和Google也都在推进新的设备方向。

备忘录称这款吊坠可能配备摄像头,但Meta尚未披露具体规格,而且内部测试仍要等到几年后才开始。Meta还计划将眼镜产品线从Ray-Ban Meta和Oakley Meta进一步扩展,同时为AI功能建立开发者平台和新的订阅服务。

查看单篇正文查看原文
13

The Verge AI

SpaceX IPO 把马斯克叙事变成市场考验

·#spacex

SpaceX IPO 把马斯克叙事变成市场考验

《The Verge》发表了一篇评论性分析,认为 SpaceX 传出的 IPO 计划,尤其是据称超过 1 万亿美元的估值,可能会给公众投资者带来极高风险。文章称,这份 S-1 把 SpaceX 描绘成一家火箭公司、AI 公司等多重身份的企业,同时强调其去年亏损接近 50 亿美元。

如果 SpaceX 以超高估值上市,这可能会成为又一次测试“meme 股票”式热情能否把股价推离基本面的案例。若这场 IPO 被当作叙事交易而不是基于盈利的估值,散户、指数基金以及更广泛的科技市场都可能受到影响。

《The Verge》这篇文章认为,SpaceX 的 IPO 文件是一场危险的炒作,并把它与臭名昭著的 WeWork 发行进行对比。文章指出,SpaceX 据称估值超过 1 万亿美元,但在去年接近 50 亿美元亏损的背景下,这个估值显得与现实严重脱节。作者还提到,SpaceX 声称的总可服务市场高达 28.5 万亿美元,并称这一数字荒谬得离谱,甚至大于美国整体 GDP。文章认为,马斯克在 Tesla 上已经证明,市场可以在叙事和动量驱动下持续高估资产,即使传统估值指标已经非常夸张。

文中把这份文件描述成火箭公司、AI 公司和人格崇拜式传播的混合体。文章称,IPO 中有 30% 面向散户预留,这被作者解读为利用马斯克的忠实支持者来制造需求。作者还暗示,如果 SpaceX 能快速进入主要指数,买盘可能会进一步被放大,即便基本面并不扎实。最终,文章把这次 IPO 视为金融虚无主义的缩影,并警告普通投资者可能成为最后接盘的人。

文章称,SpaceX 的文件声称其总可服务市场(TAM)高达 28.5 万亿美元,其中 26.5 万亿美元与 AI 应用相关,并指出这些估算还排除了俄罗斯和中国市场。文章还说,2025 年约 130 亿美元、也就是大约三分之二的资本支出投向了 AI 建设,而其 AI 业务亏损 60 亿美元、收入仅 32 亿美元。

查看单篇正文查看原文
14

TechCrunch AI

Meta据报测试AI吊坠

·#meta

Meta据报测试AI吊坠

据《The Information》看到的一份备忘录,Meta据报正在开发一款由AI驱动的吊坠,并计划在未来一年内开始测试。备忘录还称,Meta希望扩展其AI眼镜产品线,并推出名为Wearables for Work的企业订阅服务。

这表明Meta正在更积极地把AI可穿戴设备做成一个重要产品类别,而不只是边缘项目。若进展顺利,这些设备可能强化Reality Labs的硬件业务,并让Meta在手机和电脑之外获得更多分发AI服务的方式。

据《The Information》看到的一份备忘录显示,Meta正在开发一款AI驱动的吊坠,并计划在未来一年内开始测试。该设备很可能会借鉴Meta在2025年底收购的AI创业公司Limitless的技术和产品思路。Limitless此前推出过一款AI吊坠,用户可以把它夹在衣服上或像项链一样佩戴,用来记录对话。Meta在宣布收购时表示,这笔交易将帮助公司“加速我们构建AI可穿戴设备的工作”。这份新报告还称,Meta计划扩展其AI眼镜产品线。

与此同时,公司还准备推出一个面向企业的订阅服务Wearables for Work。整体来看,Meta似乎在押注更完整的可穿戴生态,以振兴其硬件业务。此举发生在Reality Labs持续大幅亏损的背景下,该部门今年第一季度亏损达40亿美元。TechCrunch表示已就此事联系Meta寻求评论。

这款吊坠似乎建立在Meta于2025年底收购的Limitless工作基础上,后者曾推出可挂在衣服上或戴作项链的对话录音AI设备。该报道发布之际,Meta的Reality Labs仍在亏损,第一季度亏损达40亿美元,而此前的AI可穿戴产品也一直难以获得消费者青睐。

查看单篇正文查看原文
15

TechCrunch AI

2026年浏览器大战中的Chrome与Safari挑战者

·#browsers

2026年浏览器大战中的Chrome与Safari挑战者

TechCrunch 发布了一篇 2026 年的浏览器替代品盘点,重点介绍试图挑战 Chrome 和 Safari 的新浏览器,包括 AI 驱动、隐私优先、开源以及所谓“mindful”浏览器。文章提到了 Perplexity 的 Comet、The Browser Company 的 Dia、Opera 的 Neon、OpenAI 的 Atlas 和自动化平台 Aside,同时也列出了 Brave 和 DuckDuckGo 等成熟的隐私浏览器。

这篇盘点表明,浏览器竞争已经不再只是速度和渲染能力之争,而是扩展到 AI 助手、隐私控制和浏览器原生自动化。之所以重要,是因为浏览器仍然是通往网络的主要入口,用户习惯一旦变化,就可能影响搜索流量、数据流向以及人们完成日常线上任务的方式。

Chrome 和 Safari 仍然主导着浏览器市场,但 TechCrunch 表示,如今寻找替代品的用户已经有了比以往更多的选择。文章将这一轮产品浪潮描述为一场加剧中的浏览器大战,其驱动力不仅来自传统浏览器功能,也来自 AI、隐私和用户身心体验。AI 浏览器方面,Perplexity 的 Comet 被介绍为一种基于聊天机器人的浏览器,能够总结邮件、浏览网页,并执行发送日历邀请等操作,但目前仅限于每月 200 美元的订阅用户使用。The Browser Company 的 Dia 延续了该公司 Arc 的思路,目前处于仅邀请测试阶段,它可以查看用户访问过的网站和已登录的网站,从而帮助回答问题、总结文件并协助用户与网页交互。

Opera 的 Neon 被描述为具备上下文感知能力的 AI 代理式浏览器,能够执行研究、购物和写代码等任务,甚至可以在用户离线时继续运行,但它尚未正式推出。OpenAI 的 Atlas 允许用户在聊天机器人内直接浏览网站,并向 ChatGPT 询问搜索结果,它还提供 agent mode 来代替用户完成任务;该产品最初登陆 macOS,之后预计会扩展到其他平台。文章还提到 Aside,这是一家获得 Y Combinator 支持的浏览器原生自动化平台,目标是自动填写表单、管理数据,并跨 Gmail、Notion、Slack、Figma 和银行网站等服务工作。隐私浏览器方面,Brave 因内置广告和跟踪器拦截而受到关注,同时还提供基于 BAT 的奖励机制,以及 VPN、AI 助手和视频通话等附加功能;DuckDuckGo 则延续了其长期以来的隐私优先搜索品牌影响力。

这些新浏览器中有不少仍处于受限阶段:Comet 目前仅对每月 200 美元的 Perplexity Max 订阅用户开放,Dia 采用邀请制且仅限 Arc 成员,Neon 还未正式上线,但未来会采用订阅模式。Atlas 先在 macOS 上推出,预计很快会登陆 Windows、iOS 和 Android,而 Brave 和 DuckDuckGo 仍然是最知名的隐私优先浏览器,内置跟踪器拦截等功能。

查看单篇正文查看原文
16

The Verge AI

AI虚拟人用种族刻板印象推销代发货商品

·#ai-generated-content

AI虚拟人用种族刻板印象推销代发货商品

The Verge 报道称,TikTok、Facebook 和 Instagram 上的 AI 生成网红账号正在用煽情脚本和带有种族化色彩的人设来推销低价代发货商品。文章聚焦于一个名叫 Aliyah 的虚构角色,她声称“手工制作”的腰带扣,其实与 Shein 上售价更低的同类商品完全相同。

这说明生成式 AI 不只是被用来做内容创作,也在被用来放大带欺骗性的社交电商套路。它还引发了关于种族刻板印象、冒充身份以及平台信任的担忧,因为自动化虚拟人让真实小商家和骗局之间的界限变得模糊。

The Verge 调查了一类正在增长的 AI 生成网红账号,它们通过情绪化、往往带有种族化色彩的叙事来通过代发货模式销售廉价商品。一个典型例子是 Aliyah:她被塑造成一名穿着乡村西部风服饰、看起来正在哭泣的浅肤色黑人女性,试图让观众支持她的腰带扣生意。问题在于,Aliyah 并不是真人,这些商品也并非手工制作;相同款式的腰带扣在 Shein 上的售价只有其大约四分之一。文章指出,视频里有多处明显破绽,例如机械感很强的声音、不符合动作逻辑的缝纫镜头,以及人物擦泪时出现的画面穿帮。报道还提到,网上存在许多几乎一模一样的视频,只是换了不同的 AI 人物,但背景、道具和销售话术都相同。

The Verge 在 TikTok 上找到了数十个类似账号,在 Instagram 和 Facebook 上也能看到同类内容,它们兜售的商品包括牛仔靴造型马克杯、钩织包和开衫等。部分账号会标注为 AI 生成,但很多并未标明,而且这些账号常常用自动化方式回复评论,有时还会模仿特定的非裔英语表达方式。Carrasco 将其描述为一种不断扩大的电商骗局,一些操作者会让一个 AI 角色同时服务于多个店铺。整篇文章把这一趋势概括为建立在欺骗、社交媒体传播和伪造身份之上的零售诈骗。

The Verge 指出,这些账号的几乎所有内容似乎都是 AI 生成的,包括屏幕上的“人物”和会自动回复评论的系统,而且有时还会模仿非裔美国人的口语表达。研究员 Jeremy Carrasco 告诉媒体,他的团队每天最多能发现 100 个这类账号,且文章中的许多案例都是在过去两个月内创建的。

查看单篇正文查看原文