银行家集体否决AI交付能力
500位投资银行家评审发现,没有任何一款AI模型能直接用于客户交付,凸显先进模型与实际可用性间的断层。
AI 日报
2026年4月27日的AI新闻揭示了技术进步与现实应用之间的巨大鸿沟:尽管模型能力持续提升,但在高风险场景中仍缺乏可靠性。同时,伦理责任、市场分化和硬件竞争正重塑行业格局。
Overview
从 15 条资讯中筛选出 11 条
2026年4月27日的AI新闻揭示了技术进步与现实应用之间的巨大鸿沟:尽管模型能力持续提升,但在高风险场景中仍缺乏可靠性。同时,伦理责任、市场分化和硬件竞争正重塑行业格局。
500位投资银行家评审发现,没有任何一款AI模型能直接用于客户交付,凸显先进模型与实际可用性间的断层。
马斯克起诉科罗拉多州,推动社会重新审视‘黑箱AI’是否构成歧视,加速可解释AI(XAI)监管进程。
谷歌推出新一代TPU芯片及Vertex AI平台,意图通过软硬件一体化重构云服务竞争规则。
OpenAI建议采用角色定义+目标导向的提示结构,以释放GPT-5.5更强的自主推理能力。
研究提出‘半可执行栈’模型,表明AI正将开发职责推向更高层次的设计与治理维度。
Claude用户普遍更富裕,但市场份额远低于ChatGPT,暗示AI使用可能存在阶级分化风险。
BankerToolBench测试显示:无模型适合客户交付
一项由麦吉尔大学与Handshake AI联合发起的基准测试,邀请500名投行专业人士对九款主流AI模型进行实战评审。结果显示,即使是最先进的GPT-5.4也仅有16%的输出被接受为起点,且存在硬编码错误、逻辑缺陷等问题——这标志着当前AI代理在复杂任务中的稳健性严重不足。
如果AI不能解释决策,是否构成歧视?
埃隆·马斯克对科罗拉多州提起诉讼,直指AI系统缺乏透明度可能导致系统性偏见。该事件凸显出民主社会对AI问责机制的需求:若算法做出影响人生存机会的决定却无法说明原因,公众信任将崩塌。专家呼吁立法强制要求高风险AI具备可解释性。
OpenAI合并Codex进GPT-5.5,开发者需重写提示词
OpenAI再次终止独立编程模型Codex,将其能力全面整合至GPT-5.5,强调代理式编程效率提升(token减少约20%)。同时发布新提示工程指南,建议开发者放弃旧有详细指令,改用简洁角色+目标导向结构,以最大化模型推理潜力。
AI代理扩展软件工程,而非取代工程师
查尔姆斯理工大学研究提出“半可执行栈”六层模型,指出AI正将软件工程从代码延伸至提示、流程、治理等多个抽象层级。开发者角色正在转型:不再只写代码,而是设计可验证、可持续演化的AI协作体系。
Claude用户更富裕,但市场份额极低
调查显示,80%的Claude用户家庭年收入超10万美元,远高于ChatGPT(56%)和Meta AI(37%),但其在高收入群体中份额仅为6%,远低于ChatGPT的37%。这一现象可能加剧技术红利分配不均问题。
Stories
The Decoder

一项名为BankerToolBench的新基准测试了九款顶级AI模型在真实投资银行任务中的表现,发现没有任何一款模型可以直接用于客户交付,尽管许多银行家愿意将其作为起点使用。
这项研究揭示了先进AI能力与高风险金融环境中实际可用性之间的关键差距,挑战了关于AI即将在企业中部署的假设,并突显出需要更严格的评估框架。
Handshake AI与麦吉尔大学的研究人员推出了BankerToolBench,这是一个开源基准,用于评估AI代理在100个真实投资银行任务中的表现。来自高盛、摩根大通等机构的500多名专业人士评审了输出结果,发现没有任何一个模型适合直接交付给客户。虽然大多数银行家表示愿意将AI作为起点使用,但GPT-5.4和Claude Opus 4.6等模型存在严重缺陷——如Excel模型中硬编码数值或错误的业务逻辑——这使得它们无法可靠使用。
评估采用了基于Gemini 3 Flash Preview的自定义验证器(Gandalf),其与人类评审者的判断一致率为88.2%。这些发现表明,当前的大语言模型在涉及数据解析、工具调用和合规性的复杂多步骤流程中缺乏稳健性。
该基准包含100个端到端任务,要求Excel模型、PPT演示文稿和报告;GPT-5.4得分最高,但仍有一半标准未达标,仅16%的输出被认为可作为起点使用。
Financial Times AI
埃隆·马斯克对科罗拉多州提起的诉讼突显了一个关键的法律和伦理问题:如果AI系统无法解释其决策,它是否构成歧视?这引发了关于自动化系统做出偏见或有害决策时责任归属的讨论。
这个问题关乎在民主社会中构建可信赖的人工智能——它挑战了我们如何让算法负责,并确保影响人们生活的决策是公平且可解释的。这也反映了金融、医疗和刑事司法等行业对可解释AI日益增长的监管压力。
埃隆·马斯克对科罗拉多州提起的诉讼引发了关于人工智能问责制和公平性的更广泛讨论。核心问题是:如果AI系统无法解释其决策,它是否可以被法律或伦理认定为歧视?随着AI越来越多地影响招聘、贷款和执法等高风险领域,无法解释为何做出某个决定会削弱公众信任并违背民主原则。
专家强调,可解释性(常称为XAI)对于识别偏见、确保符合法规以及实现人类监督至关重要。尽管人类容易受到偏见和噪声(判断不一致)的影响,但算法通常表现出较少变异性——但如果训练数据存在缺陷,仍可能嵌入社会偏见。因此,对透明且可解释的AI的需求比以往任何时候都更加紧迫。
当前许多AI模型如同‘黑箱’,难以追踪它们如何得出特定结果——这是识别偏见的关键障碍。监管框架越来越要求具备可解释性,不仅为了合规,还为了检测和缓解算法不公。
Financial Times AI
·#ai
谷歌云CEO托马斯·库里安表示,公司自研的AI芯片(如TPU)和先进的生成式AI模型是其追赶亚马逊和微软云业务的关键战略。
这一举措标志着云竞争的重大转变,AI基础设施(软硬件)正变得与传统计算资源同样重要,可能重塑企业选择云服务商的方式。
谷歌云CEO托马斯·库里安强调,公司正在大力投资AI芯片(如张量处理单元TPU)和生成式AI模型,以缩小与亚马逊AWS和微软Azure之间的差距。谷歌推出了两款新的TPU芯片,分别针对AI开发的不同阶段:一款用于训练,另一款用于推理。公司还推广其Vertex AI平台,该平台提供超过200个基础模型,并配备Agent Builder等工具加速AI应用开发。
这些举措旨在让谷歌云对寻求端到端AI解决方案的企业更具吸引力。新客户可获得高达300美元的免费额度用于测试相关服务。这一战略反映了整个行业的趋势:AI能力已成为云竞争力的核心要素。
谷歌的新一代TPU分为两种专用芯片——一种用于训练大型AI模型,另一种用于推理;同时其Vertex AI平台提供超过200个基础模型供开发者构建应用。
The Decoder

·#ai
OpenAI再次终止了独立的Codex编程模型,将其能力整合进GPT-5.5。该版本在代理式编程、计算机使用效率方面有显著提升,并且完成相同任务所需的token更少。
这一举措体现了OpenAI将专用模型统一为通用模型的总体策略,可能简化开发者的工具链,但也带来了成本上升的问题。同时标志着向能独立处理复杂软件任务的自主AI代理迈进。
OpenAI已正式停止独立的Codex模型,其全部编程功能现在已整合进GPT-5.5。据OpenAI开发者体验主管罗曼·于埃特表示,GPT-5.5在代理式编程方面取得重大进展——即AI能自主执行编程任务,并通过减少token使用量提高效率。尽管如此,用户仍面临API价格约20%的涨幅。
这一决定遵循了OpenAI此前的模式:最初在2023年停用Codex,随后于2025年以Codex-1(基于o3)形式重启,如今再次将其整合进统一架构中。这表明OpenAI致力于构建更智能、可自主运行的AI系统来支持软件开发。
GPT-5.5在Codex任务上比GPT-5.4少用约20%的token,尽管性能提升,但API价格仍上涨约20%。Codex-1基于o3,在2025年5月曾作为代理式编程系统的一部分重新推出。
The Decoder

·#ai
OpenAI发布了针对GPT-5.5的新提示工程指南,建议开发者放弃旧有的提示词,改用简洁、基于角色的目标导向指令,而不是繁琐的步骤说明。
这一转变体现了GPT-5.5更强的推理效率——当模型被赋予清晰目标而非过度控制时表现更优,这对开发者构建AI应用和优化模型性能具有直接影响。
OpenAI为GPT-5.5发布的提示词指南强调应摒弃为早期模型设计的旧提示词。这些遗留提示通常包含过多过程细节,反而阻碍了GPT-5.5的效率。开发者应首先明确目标结果、成功标准、约束条件和上下文信息,然后让模型自主决定实现路径。
一个客户服务示例展示了仅聚焦于问题解决的简洁提示,而不指定具体步骤。该指南还重新引入角色定义作为有效提示的关键组成部分,认为这有助于更准确地设定模型行为。建议开发者先测试低和中等推理强度,再逐步提升复杂度。
该指南推荐使用包含角色定义、成功标准、约束条件和输出格式在内的七步结构;同时警告不要使用‘始终’等绝对语言,除非用于安全规则或必需字段。
The Decoder

来自查尔姆斯理工大学和沃尔沃集团的研究人员表示,AI代理并未取代软件工程师,而是将该领域扩展到了提示、工作流和决策流程等‘半可执行产物’。他们提出了一个名为‘半可执行栈’的六层模型来描绘这一扩展范围。
这一观点挑战了AI导致软件工程岗位消失的流行叙事,转而强调开发者的全新职责——如治理、验证和跨多个层级的系统设计。它表明,随着自动化处理低级任务,人类判断力和战略思维将变得更加重要。
由查尔姆斯理工大学和沃尔沃集团研究人员撰写的一篇新论文指出,AI代理并未取代软件工程师,而是通过扩展到提示、工作流、策略和决策流程等“半可执行产物”来重塑这一学科。他们提出了一种六层诊断模型——半可执行栈,其中第1层是传统代码,第2至第6层代表越来越抽象且嵌入社会因素的软件系统元素。作者强调,尽管代码生成工具已取得进步,真正的挑战在于管理这些产物如何交互、验证、治理并随时间演进。
这种转变意味着开发者现在必须更少关注编写更快的代码,而更多关注决定构建什么、如何测试以及如何确保其长期运行完整性。论文将常见问题(如提示漂移或幻觉)重新定义为工程问题,而非缺陷,需要结构化解决方案。最终,这项研究认为软件工程正在演变,而非衰退。
半可执行栈包括从传统代码(第1层)到欧盟人工智能法案等社会因素(第6层)的六个层次,其中第2至第5层代表提示、编排、控制和组织逻辑等日益复杂的非代码产物。论文指出,与传统编码实践相比,这些外层的工程方法仍处于发展阶段。
The Decoder

Epoch AI与Ipsos的一项调查显示,80%的美国Claude用户家庭年收入超过10万美元,远高于ChatGPT(56%)和Meta AI(37%)。但Claude在高收入群体中的绝对市场份额仅为6%,而ChatGPT达到37%。
这一差异突显了AI使用中的潜在社会经济偏见——富裕人群可能从更先进的模型中获益更多,如果高性能AI主要被富人使用,可能会加剧现有的经济差距。
Epoch AI与Ipsos的新调查显示,美国Claude的周活跃用户显著更富裕:80%的家庭年收入超过10万美元,而微软Copilot为64%,Meta AI仅为37%。尽管如此,Claude在高收入人群中的份额仅为6%,远低于ChatGPT的37%。这些数据来自2026年3月至4月间的三次调查。
值得注意的是,近一半高收入人群并未使用任何AI工具,表明市场潜力巨大。这与Anthropic的一项研究一致,该研究显示更强的AI模型在谈判中表现更好——如果精英用户持续偏好性能优越的工具,这种趋势可能进一步加剧现有不平等。
数据来自2026年3月至4月间三次调查,样本为超过2000名美国成年人;在高收入人群中(年收入超10万美元),有44%的人完全不使用任何AI助手。
ZDNET AI

ZDNET发布了一份指南,指导用户通过退出训练、删除聊天记录、使用临时对话和管理记忆来审计和管理他们在ChatGPT中的个人数据。
随着人工智能的广泛应用,该指南赋予用户对其数据的控制权,降低了公司(如OpenAI)无意或恶意使用数据的风险,尤其是在人们对监控和画像技术日益担忧的背景下。
文章列出了五种实用步骤,帮助ChatGPT用户重新掌控自己的个人信息。包括退出模型训练数据使用、删除旧对话、使用不保存的临时聊天、管理‘记忆’功能(储存偏好信息),并通过OpenAI隐私门户提交请求。
某些操作仅影响未来数据,而删除的数据可能需要最多30天才从OpenAI系统中彻底清除。指南强调,即使是看似无害的信息也可能在未来被意外利用,提醒用户在与AI互动时保持谨慎。
用户可通过设置 > 数据控制 > 改进模型选项退出数据训练;可删除聊天记录(最长保留30天),或使用临时聊天功能,这类对话不会被存储也不会用于训练。
TechCrunch AI

·#ai
投资银行家Storm Duncan提出用位于米尔谷的一处13英亩地产换取AI公司Anthropic的股权。他称这是战略性资产配置调整,将房地产持仓换成AI股票,并在锁定期保留20%的股份增值权益。
这一非同寻常的交易反映了科技财富正越来越多地向AI等高增长资产配置,即使不在传统IPO渠道内。它突显了硅谷富有人群对私募股权和IPO前投资的兴趣日益浓厚。
投资银行家Storm Duncan正在寻求用自己位于米尔谷的13英亩地产换取AI公司Anthropic的股权。他在LinkedIn上表示,这是一次战略性的资产配置调整:他持有的房地产过多而AI投资不足,而潜在买家可能正好相反。
这套房产是他在2019年以475万美元购入的,目前由一位知名风投人士居住,但他拒绝透露其姓名。交易将是私人方式进行,买家无需立即卖出股份,而是可以在IPO后的锁定期保留20%的股份增值部分,这是防止内部人过早抛售的常见机制。
该房产目前由一位知名风险投资家居住,但Duncan拒绝透露具体身份。交易为私下进行,无需立即出售股份,买家可在锁定期(通常为IPO后90–180天)保留20%的股份增值收益。
ZDNET AI

文章介绍了如何通过完成一次20分钟的户外步行或跑步来校准苹果手表,从而提高距离、配速和卡路里消耗追踪的准确性。此过程帮助手表学习用户的步幅和体能水平,尤其在GPS信号弱的情况下表现更佳。
准确的健身数据对依赖苹果手表监测训练、管理心率区间和追踪日常活动的用户至关重要。校准可确保卡路里消耗和距离等指标个性化且更可靠,尤其适合运动员和健身爱好者。
ZDNET的文章详细说明了如何通过校准苹果手表显著提升运动数据的准确性,如距离、配速和卡路里消耗。该过程包括在户外完成一次20分钟的步行或跑步,让手表记录您的移动情况。这使设备能够学习您的步幅长度和个人健身模式,即使在GPS信号较弱的地方也能更准确地追踪数据。
作者分享了自己在力量训练、跑步和瑜伽等多种活动中使用此方法的经验。根据苹果官方支持信息,这种校准还能根据个人特点调整指标,增强整体健身追踪的可靠性。这是一个简单但有效的方法,任何人都可以通过它获得更好的智能手表体验。
校准必须在户外进行且开启GPS功能,训练时长应为精确的20分钟,保持稳定速度,中途不可停顿。校准完成后,苹果手表会利用你的独特步幅长度,在GPS信号差的情况下也能提升未来训练数据的准确性。
ZDNET AI

ZDNET发布了一份指南,详细介绍了如何通过调整亮度、对比度、色域和动态补偿等设置来提升海信电视的画质。该指南还为直播、流媒体和游戏等不同使用场景提供了具体的配置建议。
这份指南帮助消费者在不依赖昂贵校准工具或技术知识的情况下充分利用现有的海信电视。它解决了商店展示时画面过亮而家中观看却显得暗淡的常见问题,对普通用户非常有价值。
ZDNET的指南详细说明了如何通过基础和高级设置来提升海信电视的画面质量。它列出了三种主要场景:一键式预设(如电影模式)、直播(体育模式搭配高局部调光)和流媒体播放(电影模式搭配BT.1886伽马曲线)。用户可以将更改应用于所有输入源,也可以单独针对每个输入源进行调整。
指南还强调了恢复出厂默认值的功能,以防设置失误。对于希望深入控制的用户,文中还详细解释了色域(DCI-P3)和动态补偿等级等选项。
文章建议开启如主动对比度、HDR增强和动态色彩增强等功能实现自动优化。对于高级用户,文中提到Calman校准是一种精确调校的方法,但需要专业设备支持。