Topic
#ai-models
按主题聚合的新闻视图。
Topic Feed
主题:ai-models
共 31 条

Claude Sonnet 5 掩盖了更高的实际成本
独立机构 Artificial Analysis 的评测显示,Claude Sonnet 5 在基准表现上优于 Sonnet 4.6,但完成每个任务时消耗的 token 大幅增加。文章认为,Anthropic 虽然在表面上维持了 token 价格不变,但实际使用成本已经上升。

Coinbase joins the rush to Chinese AI models as Western labs face a pricing stress test
Coinbase is increasingly routing workloads to low-cost Chinese AI models, highlighting growing pricing pressure on Western AI providers.

OpenAI 推出受限预览的 GPT-5.6 Sol
OpenAI 发布了 GPT-5.6 新模型系列,包含 Sol、Terra 和 Luna 三个层级。Sol 是旗舰模型,目前仅通过 API 和 Codex 向少数合作伙伴开放预览,并受到美国政府访问规则的限制。

Lindy改用DeepSeek大幅削减AI成本
AI 初创公司 Lindy 据称已经用 DeepSeek 完全取代了 Anthropic 的 Claude,首席执行官 Flo Crivello 表示,这一调整为公司节省了数百万美元。他说,公司的 AI 账单已经变得难以承受,只有当 Anthropic 降价时他才会考虑换回去。

Snowflake 编码基准中 GLM-5.2 对比 Opus 4.7
Snowflake 将智谱的 GLM-5.2 与 Anthropic 的 Claude Opus 4.7 进行了 103 个真实编程任务的测试。每个任务允许三次尝试时,两者的解题率几乎相同,GLM-5.2 为 66%,Opus 4.7 为 67%。

Cursor 发布自研 AI 模型、Origin 和移动应用
Cursor 表示,其首个完全自训练的 AI 模型已经开始训练,并预计将在未来几周内发布。公司还宣布了 Origin,一个面向人类和 AI 代理的新 Git 平台,以及 Cursor Mobile 的 iOS 测试版。

纳德拉警告不要盲目“token-maxing”
微软首席执行官萨提亚·纳德拉表示,开发者不应把最强大的 AI 模型用于每一项任务,并认为生产力提升必须匹配 token 成本。他还承认自己也是“token-maxer”,并称这种习惯“很上瘾”。

Kimi K2.7 Code 大幅降价
月之暗面推出了 Kimi K2.7 Code,这是一款面向复杂编程任务和智能体工作流的开源权重模型。它的定价为每百万输入 token 0.95 美元、每百万输出 token 4.00 美元,远低于 GPT-5.5 和 Claude。

Claude Fable 5 登顶基准但价格翻倍
Anthropic 的 Claude Fable 5 以 64.9 分登上 Artificial Analysis Intelligence Index 第一名,超过了包括 GPT-5.5 在内的竞争对手。相比 Opus 4.8,它的整体性能提升只有 5.7%,但 token 价格却大约翻了一倍。

Google 的 DiffusionGemma 提升并行文本生成速度
Google DeepMind 发布了 DiffusionGemma,这是 Gemma 4 开源模型家族中的新成员,但它不再采用逐 token 自回归生成,而是使用类似扩散的去噪式文本生成。Google 表示,它在本地硬件上可带来约 4 倍速度提升,在 RTX 5090 上大约可达到每秒 700 个 token,在 H100 上可达到每秒 1000 个以上。

Claude Fable 5 初步印象
Simon Willison 花了大约 5.5 小时测试 Anthropic 新发布的 Claude Fable 5,并表示它像一款能力很强的前沿模型,但速度慢、成本高。他还提到 Anthropic 同时发布了 Claude Mythos 5,而 Fable 则是安全限制更严格的版本。

Anthropic 的 Fable 5 可生成可玩游戏
Anthropic 已公开发布 Claude Fable 5,这是其 Mythos 模型首次面向公众开放。研究者 Ethan Mollick 的早期测试显示,它能生成出乎意料地强大的输出,包括在 Claude Code 中仅用一个提示词就生成完整可玩的电子游戏。

更便宜的 AI 模型可能重塑企业支出
TechCrunch 认为,AI 成本上升可能迫使企业把更多工作负载从前沿大模型转向更便宜的模型。文章还引用了 Brian Armstrong 的预测:在未来 12 到 18 个月内,80% 的工作负载可能会运行在便宜 99% 的模型上。

Anthropic发布Claude Fable 5和Mythos 5
Anthropic发布了两款第五代 Claude 模型:面向通用场景的 Claude Fable 5,以及仅向部分合作伙伴开放的 Claude Mythos 5。文章称,Fable 5 在编程、视觉和分析基准上超过了 Anthropic 以往的所有模型,而 Mythos 5 则面向网络安全、药物设计和基因组学研究等专门领域。

MiniMax M3:百万级上下文开源权重模型
MiniMax 发布了 M3,这是一款具备百万 token 上下文窗口和较强编程能力的开放权重多模态模型。公司表示模型权重将很快公布,而当前已经可以通过 API 使用。

Nemotron 3 Ultra 成为美国最强开源模型
根据 Artificial Analysis 的排名,Nvidia 的 Nemotron 3 Ultra 现在是美国评分最高的开源 AI 模型,得分为 48。它大约有 5500 亿个总参数、约 550 亿个激活参数,Nvidia 表示将于 6 月 4 日在 Hugging Face、OpenRouter 等平台发布。

Google展示Gemini Omni和3.5
Google 在 Google I/O 2026 上展示了其新的 Gemini Omni 和 Gemini 3.5 系列的九个演示。 这些演示重点展示了 Omni 的多模态视频生成与对话式编辑能力,以及 Gemini 3.5 Flash 的智能体和编码能力。

Anthropic 发布 Claude Opus 4.8
Anthropic 发布了 Claude Opus 4.8,并将其描述为一次“适度但切实”的升级,声称它在大多数基准测试中超过了 GPT-5.5。此次更新还加入了动态子代理工作流和由用户控制的推理努力设置。

Anthropic 发布 Opus 4.8 和动态工作流
Anthropic 发布了 Claude Opus 4.8,这是其目前最强、面向公众可用的最新版本模型,并将标准定价维持在与上一代 Opus 相同的水平。此次发布还带来了 Dynamic Workflows,这是一项研究预览功能,旨在协调数百个并行子代理处理复杂任务。

Claude Opus 4.8 强调诚实与可控推理力度
Anthropic 将于周四发布 Claude Opus 4.8,公司称这款模型更倾向于标注不确定性,也更不容易做出缺乏依据的断言。它还加入了可由用户调整的回答“努力程度”,并以研究预览形式推出新的“动态工作流”功能。

Gemini 3.5 Flash 以更高推理成本换取更快速度
Google DeepMind 发布了 Gemini 3.5 Flash,它的输出速度超过每秒 280 个 token,被称为同类智能水平中最快的模型。不过,它的运行成本约为前代的 5.5 倍,token 价格也从 Gemini 3 Flash 时代上涨了三倍。

Gemma 4 通过推测解码提速最高 3 倍
谷歌为 Gemma 4 发布了实验性的多标记预测(MTP)起草模型,它们利用推测解码来预测未来的标记,从而加速生成。谷歌表示,这种方法可以让本地模型输出最高快 3 倍。

xAI发布Grok 4.3,价格大幅下调并新增创意代理模式
xAI发布了Grok 4.3,这是一个功能更强且价格更低的AI模型,支持自主执行网络搜索、代码运行和文档生成等任务。同时新增了‘Imagine代理模式’,用于管理如视频或漫画等长期创意项目。

Mistral发布Medium 3.5,将聊天、推理和代码整合进单一模型
Mistral发布了Medium 3.5,这是一个拥有1280亿参数的密集型模型,将聊天、推理和代码功能整合到一个统一系统中,并引入异步云代理用于任务自动化,以及Le Chat中的新“工作模式”以支持多步骤流程。

深度求索发布低成本高性能开源模型
深度求索发布了V4-Pro和V4-Flash两款开源权重模型,参数规模高达1.6万亿,上下文长度达一百万token,定价远低于OpenAI和谷歌等竞争对手。

阿里巴巴Qwen3.6在代理编程基准测试中超越谷歌Gemma 4
阿里巴巴发布了Qwen3.6-35B-A3B开源模型,在代理编程基准测试中表现优于谷歌的Gemma 4。该模型采用专家混合架构,每次仅激活350亿参数中的三个,从而提升效率。

Anthropic发布Claude Opus 4.7,同时限制更高级的Mythos预览版
Anthropic发布了目前功能最强的通用模型Claude Opus 4.7,该版本在编程、指令理解和创造力方面均有提升。公司仍对更先进的Mythos预览版进行限制,用于安全测试。

Anthropic的Claude Opus 4.7提升编码与视觉能力,同时降低网络安全风险
Claude Opus 4.7 引入了三倍图像分辨率(最高达2576像素),并通过训练调整和自动阻止高风险请求,有意识地降低了网络安全能力。

Gemini Pro在真实测试中胜过ChatGPT Plus
ZDNET进行的实测显示,Gemini Pro在写作和生态系统整合方面优于ChatGPT Plus,而ChatGPT在代理AI任务上胜出。两者月费均为19.99美元。

谷歌首次以Apache 2.0许可证发布Gemma 4模型
谷歌发布了Gemma 4,这是一个包含四个开放AI模型(2B–31B参数)的系列,并首次采用宽松的Apache 2.0许可证。这标志着从早期限制性许可的重大转变,使商业用途更加广泛。

阿里巴巴发布Qwen3.6-Plus,具备百万token上下文和代理编码能力
阿里巴巴在几天内发布了第三款自研AI模型Qwen3.6-Plus,该模型拥有百万token的上下文窗口,并显著提升了前端开发等代理编程任务的能力。