General Compute 押注以推理为先的 AI 云
TechCrunch AI··作者 Tim Fernholz
关键信息
General Compute 采用的是 SambaNova 的风冷 SN50 芯片,公司称其每秒可生成 600 到 700 个 token,而 GPU 大约只有 250 个 token。由于这些芯片功耗更低且无需水冷,公司表示它们可以直接部署在现有数据中心,甚至通过托管合作放到部分加密货币矿场设施中。
资讯摘要
TechCrunch 表示,General Compute 正在押注 AI 热潮的下一个瓶颈不是训练模型,而是如何更便宜、更快地提供模型服务。该公司是一家专注于推理的 neocloud,也就是专门出租 AI 算力,用于模型回应用户请求而不是学习数据的阶段。正因为这个方向,General Compute 完成了 1500 万美元种子轮融资,由 FUSE VC 领投,Carya Venture Partners 和 Village Global Ventures 参投,投后估值为 6000 万美元。公司联合创始人兼 CEO Finn Puklowski 和 CTO Jason Goodison 认为,最大的挑战有两个:找到合适的芯片,以及把这些芯片放进能尽快产生收入的数据中心。为了获得芯片供应,General Compute 转向了 SambaNova,这是一家由 Intel 支持、专注推理的芯片公司,但在硅谷讨论中的存在感一直不如 Nvidia、Groq 或 Cerebras。公司称,SambaNova 即将发布的新芯片更灵活,拥有更多内存来保存推理所需的上下文,并且性能会优于 GPU 以及其他专用芯片。
Puklowski 表示,SN50 芯片每秒可以生成 600 到 700 个 token,而 GPU 大约只有 250 个 token。General Compute 还称自己已经下单价值 3 亿美元的 SN50 芯片,并将成为首个部署该芯片的 neocloud。第二个难题是基础设施:这些芯片采用风冷而不是水冷,功耗也更低,因此公司认为可以直接安装在现有设施里,而不必进行大规模的新冷却或供电改造。为此,General Compute 正在推进托管合作,不仅面向数据中心运营商,也面向希望把闲置设施重新利用起来的加密货币矿工。公司上周刚推出云服务,并声称自己已经是运行 MiniMax 2.7 这一开源大模型最快的平台。报道还提到,Evercrest Capital Partners 的投资人 Joe Hasselmann 看到了 General Compute 与 SambaNova 之间类似 CoreWeave 和 Nvidia 的关系,说明推理基础设施正在成为新的投资热点。

资讯正文
对用于运行 AI 模型的计算资源的狂热需求只是在加速,但业内任何人都必须跨过两大障碍:拿到合适的芯片,以及把它们部署进数据中心,让它们开始创造收入。
General Compute 是一家新的推理 neocloud——即出租 AI 处理能力的公司,专注于模型处于运行并响应用户而非训练的阶段——它对这些问题有自己的答案,也让人看清 AI 生态系统的走向。正是这些答案帮助它以 6000 万美元投后估值完成了 1500 万美元种子轮融资,由 FUSE VC 领投,Carya Venture Partners 和 Village Global Ventures 参投。
首先,什么才是合适的芯片?GPU 的需求已经激增,但业内逐渐形成一种共识:一旦 AI 模型训练完成,GPU 并不是运行它们的最佳芯片。AI 的响应生成阶段与训练阶段有着不同的计算需求,而一类全新的芯片正是为此而设计。Nvidia 在 12 月以 200 亿美元收购 Groq,以及 Cerebras 上周 570 亿美元的 IPO,都指明了方向。
由于这两家公司的产能都很紧张,General Compute 的联合创始人、首席执行官 Finn Puklowski 和首席技术官 Jason Goodison 找到了另一种选择。他们转而采用由 SambaNova 制造的专用芯片。SambaNova 是一家获得 Intel 支持、专注于推理的芯片公司,但在硅谷的讨论中已经有些淡出。
随着 SambaNova 在今年发布新芯片,这种情况可能会改变。其架构更灵活,并使用更多内存来在推理计算期间存储上下文;SambaNova 声称,这些芯片的性能不仅优于 GPU,也优于 Groq 或 Cerebras 等公司打造的其他专用芯片。Puklowski 表示,新芯片的生成速度将达到每秒 600 到 700 个 token,而 GPU 约为每秒 250 个 token。
General Compute 已经下单了价值 3 亿美元的 SN50 芯片,并表示自己将成为首个部署这些芯片的 neocloud。
这些芯片还帮助 General Compute 解决第二个大问题——把它们放到哪里:它们采用风冷而非水冷,功耗更低,因此可以直接安装在现有数据中心设施中,而无需新的基础设施投资。
Puklowski 正在推进 colocation 交易——即由 General Compute 将其硬件安装在他人设施中的安排——合作对象不仅包括数据中心提供商,也包括希望将其基础设施转作他用的加密货币矿工,因为生产一枚比特币的成本往往已经高于其价格。
General Compute 上周推出了其云服务,称自己已经是在运行 MiniMax 2.7 时速度最快的服务;MiniMax 2.7 是一款强大的开源 LLM。
乔·哈塞尔曼(Joe Hasselmann)是一名风投投资人,他在 2021 年投资 Groq 时,赶上了推理热潮的早期阶段。今年,他推出了新基金 Evercrest Capital Partners,专注于 AI 领域,并把 General Compute 作为他的首批投资之一。哈塞尔曼认为,SambaNova 与 General Compute 的合作,与 CoreWeave 和 Nvidia 之间的关系,以及 Groq 的芯片制造与其前云业务的搭配,都有相似之处。
“他们确实需要一批健康的客户组合,把芯片部署在那些会带来高增长的环境中,”哈塞尔曼说,“从某种程度上说,General Compute 在押注 SambaNova,而 SambaNova 也在押注 General Compute。”
问题在于,哪一种计算架构会在 AI 的未来中捕获最多价值。推理云本质上是在押注一个存在多种模型和智能体的世界,在这个世界里,没有单一提供商占据主导地位,而推理速度和成本会成为关键竞争变量。可以看看本周 OpenRouter 融资 1.13 亿美元的 B 轮,这反映出该公司能够让客户接入多个模型,从而优化其 token 支出。
在价格和能力这两个层面,速度都很重要。Puklowski 希望把用于编程智能体、耗时一小时的工作负载,缩短为 5 到 10 分钟的任务;同时,他也希望让用于客户服务的音频智能体变得更经济,因为这类智能体需要更快的推理速度,才能有效进行对话。
“如果你使用 ChatGPT,它每秒给你 50 个 token,这仍然比我们阅读的速度快得多,”Puklowski 告诉 TechCrunch,“现在事情已经转向智能体对智能体的模式,智能体在替我们阅读,或者去 ping 数据库,它们就需要跑得更快。”
来源与参考
收录于 2026-05-29