General Compute 押注以推理为先的 AI 云

TechCrunch AI·5月28日 21:00 UTC·作者 Tim Fernholz

关键信息

General Compute 采用的是 SambaNova 的风冷 SN50 芯片，公司称其每秒可生成 600 到 700 个 token，而 GPU 大约只有 250 个 token。由于这些芯片功耗更低且无需水冷，公司表示它们可以直接部署在现有数据中心，甚至通过托管合作放到部分加密货币矿场设施中。

资讯摘要

TechCrunch 表示，General Compute 正在押注 AI 热潮的下一个瓶颈不是训练模型，而是如何更便宜、更快地提供模型服务。该公司是一家专注于推理的 neocloud，也就是专门出租 AI 算力，用于模型回应用户请求而不是学习数据的阶段。正因为这个方向，General Compute 完成了 1500 万美元种子轮融资，由 FUSE VC 领投，Carya Venture Partners 和 Village Global Ventures 参投，投后估值为 6000 万美元。公司联合创始人兼 CEO Finn Puklowski 和 CTO Jason Goodison 认为，最大的挑战有两个：找到合适的芯片，以及把这些芯片放进能尽快产生收入的数据中心。为了获得芯片供应，General Compute 转向了 SambaNova，这是一家由 Intel 支持、专注推理的芯片公司，但在硅谷讨论中的存在感一直不如 Nvidia、Groq 或 Cerebras。公司称，SambaNova 即将发布的新芯片更灵活，拥有更多内存来保存推理所需的上下文，并且性能会优于 GPU 以及其他专用芯片。

Puklowski 表示，SN50 芯片每秒可以生成 600 到 700 个 token，而 GPU 大约只有 250 个 token。General Compute 还称自己已经下单价值 3 亿美元的 SN50 芯片，并将成为首个部署该芯片的 neocloud。第二个难题是基础设施：这些芯片采用风冷而不是水冷，功耗也更低，因此公司认为可以直接安装在现有设施里，而不必进行大规模的新冷却或供电改造。为此，General Compute 正在推进托管合作，不仅面向数据中心运营商，也面向希望把闲置设施重新利用起来的加密货币矿工。公司上周刚推出云服务，并声称自己已经是运行 MiniMax 2.7 这一开源大模型最快的平台。报道还提到，Evercrest Capital Partners 的投资人 Joe Hasselmann 看到了 General Compute 与 SambaNova 之间类似 CoreWeave 和 Nvidia 的关系，说明推理基础设施正在成为新的投资热点。

资讯正文

对用于运行 AI 模型的计算资源的狂热需求只是在加速，但业内任何人都必须跨过两大障碍：拿到合适的芯片，以及把它们部署进数据中心，让它们开始创造收入。

General Compute 是一家新的推理 neocloud——即出租 AI 处理能力的公司，专注于模型处于运行并响应用户而非训练的阶段——它对这些问题有自己的答案，也让人看清 AI 生态系统的走向。正是这些答案帮助它以 6000 万美元投后估值完成了 1500 万美元种子轮融资，由 FUSE VC 领投，Carya Venture Partners 和 Village Global Ventures 参投。

首先，什么才是合适的芯片？GPU 的需求已经激增，但业内逐渐形成一种共识：一旦 AI 模型训练完成，GPU 并不是运行它们的最佳芯片。AI 的响应生成阶段与训练阶段有着不同的计算需求，而一类全新的芯片正是为此而设计。Nvidia 在 12 月以 200 亿美元收购 Groq，以及 Cerebras 上周 570 亿美元的 IPO，都指明了方向。

由于这两家公司的产能都很紧张，General Compute 的联合创始人、首席执行官 Finn Puklowski 和首席技术官 Jason Goodison 找到了另一种选择。他们转而采用由 SambaNova 制造的专用芯片。SambaNova 是一家获得 Intel 支持、专注于推理的芯片公司，但在硅谷的讨论中已经有些淡出。

随着 SambaNova 在今年发布新芯片，这种情况可能会改变。其架构更灵活，并使用更多内存来在推理计算期间存储上下文；SambaNova 声称，这些芯片的性能不仅优于 GPU，也优于 Groq 或 Cerebras 等公司打造的其他专用芯片。Puklowski 表示，新芯片的生成速度将达到每秒 600 到 700 个 token，而 GPU 约为每秒 250 个 token。

General Compute 已经下单了价值 3 亿美元的 SN50 芯片，并表示自己将成为首个部署这些芯片的 neocloud。

这些芯片还帮助 General Compute 解决第二个大问题——把它们放到哪里：它们采用风冷而非水冷，功耗更低，因此可以直接安装在现有数据中心设施中，而无需新的基础设施投资。

Puklowski 正在推进 colocation 交易——即由 General Compute 将其硬件安装在他人设施中的安排——合作对象不仅包括数据中心提供商，也包括希望将其基础设施转作他用的加密货币矿工，因为生产一枚比特币的成本往往已经高于其价格。

General Compute 上周推出了其云服务，称自己已经是在运行 MiniMax 2.7 时速度最快的服务；MiniMax 2.7 是一款强大的开源 LLM。

乔·哈塞尔曼（Joe Hasselmann）是一名风投投资人，他在 2021 年投资 Groq 时，赶上了推理热潮的早期阶段。今年，他推出了新基金 Evercrest Capital Partners，专注于 AI 领域，并把 General Compute 作为他的首批投资之一。哈塞尔曼认为，SambaNova 与 General Compute 的合作，与 CoreWeave 和 Nvidia 之间的关系，以及 Groq 的芯片制造与其前云业务的搭配，都有相似之处。

“他们确实需要一批健康的客户组合，把芯片部署在那些会带来高增长的环境中，”哈塞尔曼说，“从某种程度上说，General Compute 在押注 SambaNova，而 SambaNova 也在押注 General Compute。”

问题在于，哪一种计算架构会在 AI 的未来中捕获最多价值。推理云本质上是在押注一个存在多种模型和智能体的世界，在这个世界里，没有单一提供商占据主导地位，而推理速度和成本会成为关键竞争变量。可以看看本周 OpenRouter 融资 1.13 亿美元的 B 轮，这反映出该公司能够让客户接入多个模型，从而优化其 token 支出。

在价格和能力这两个层面，速度都很重要。Puklowski 希望把用于编程智能体、耗时一小时的工作负载，缩短为 5 到 10 分钟的任务；同时，他也希望让用于客户服务的音频智能体变得更经济，因为这类智能体需要更快的推理速度，才能有效进行对话。

“如果你使用 ChatGPT，它每秒给你 50 个 token，这仍然比我们阅读的速度快得多，”Puklowski 告诉 TechCrunch，“现在事情已经转向智能体对智能体的模式，智能体在替我们阅读，或者去 ping 数据库，它们就需要跑得更快。”

来源与参考

收录于 2026-05-29