Probably 融资 900 万美元打造更可靠的 AI

TechCrunch AI·6月16日 21:15 UTC·作者 Russell Brandom

关键信息

Probably 的首款产品是一款数据科学工具，可从复杂数据集中快速生成答案，并附带引用和审计轨迹。该系统使用确定性验证器来拒绝与数据集不匹配的回答，公司称 LLM 也会针对该验证器进行训练，因此整个系统可以在比前沿模型弱四个等级的模型上运行，甚至能在本地硬件上部署。

资讯摘要

随着大语言模型能力越来越强，幻觉问题仍然很难彻底消除。TechCrunch 报道称，即使是最聪明的模型也会出现事实错误，而行业仍在探索最可靠的检测方式。Probably 想用更严格的可靠性层来解决这个问题，而不是单纯依赖更强大的模型。该公司刚刚从 Andreessen Horowitz 融得 900 万美元种子轮资金。创始人 Peter Elias 表示，他们的目标是在错误到达用户之前就将幻觉和简单事实错误拦截掉，并将准确率提升到接近确定性系统常见的 99.99%。

Probably 的首款产品是一款数据科学工具，可以从复杂数据集中快速生成答案，并附带引用和审计轨迹。为了让这些输出更可信，公司构建了一个 Elias 口中的“数据科学机甲”，即一套复杂的护栏系统，由确定性验证器检查 LLM 的初步回答，并把不匹配数据集的结果退回重做。Elias 说，LLM 还会针对这个验证器进行训练，而这种设计通过减少歧义，让模型不必“费很大劲”去做对事情。公司表示，当前版本运行在比前沿模型弱四个等级的模型上，因此可以在本地硬件上运行，从而大幅降低 token 成本。Elias 认为，这套引擎未来还能扩展到会计、医疗服务等对精度要求很高的场景。

资讯正文

随着 LLM 变得越来越强大，幻觉问题却始终很难避免。即便是最聪明的模型也会冒出错误，而尽管业界已经有办法去捕捉这些错误，但到底怎样做才最好，行业仍在摸索中。

刚刚从 Andreessen Horowitz 融得 900 万美元种子轮融资的 Probably，正试图建立一种更严谨的方式来捕捉这些错误。

正如创始人 Peter Elias（见上图）所说，这家公司的目标是阻止幻觉和简单的事实性错误在到达用户之前就被拦下，并实现 99.99% 这种在确定性系统中很常见、但在 AI 中却难得多的准确率。事实证明，要把 LLM 提升到这种准确度，需要重新思考 AI 工程中的许多基本假设。

Probably 的首款产品是一款数据科学工具，旨在从复杂数据集中快速生成答案。每个结果都附带引用和其生成过程的审计轨迹，这在 AI 工具中正变得越来越常见。

但要防止错误渗入这些摘要，就需要一个复杂的 harness 系统，Elias 将其形容为“数据科学机甲”。LLM 的首次答案会与一个确定性的验证器系统进行核对，任何与数据集不匹配的结果都会被退回。公司表示，关键在于，LLM 已经针对验证器进行了训练，而整个系统都围绕快速且准确的答案进行了优化。

Elias 说：“我们在构建这个系统时学到的是，你的 harness 工程越好，对模型的要求就可以越低。如果你能把上下文提炼得足够好，模型就不需要非常费力才能做对。归根结底，这就是一场减少歧义的练习。”

这使得 Probably 的数据科学工具可以运行在明显更小的 AI 模型上。Elias 说，当前版本运行在一个“比前沿模型低四个档次”的模型上，这意味着它可以在本地硬件上运行（也就是桌面电脑，而不是数据中心），从而大幅降低与 AI 使用相关的 token 成本。

在 token 成本不断上升、许多客户正在重新评估其 AI 预算的当下，这无疑是个受欢迎的想法。Elias 的设想也并不止于数据科学，因为同样的引擎可以扩展到会计或医疗服务等场景——正如 Elias 所说，适用于“任何对精度敏感的用例”。

Elias 说：“我觉得很有意思的是，大型 AI 实验室甚至都没有尝试做这件事。他们没有动力这么做，因为你需要纠正模型的次数越多，他们赚得就越多。”

亚马逊首席执行官据称在政府打击前就曾对 Anthropic 模型提出担忧

Zack Whittaker

FBI 搭建了一个自己的复制小镇，用来模拟真实世界的网络攻击

Zack Whittaker

杰夫·贝索斯的 Prometheus 筹集了 120 亿美元，要为物理世界打造一名“人工通用工程师”

Marina Temkin

网络安全研究人员对 Anthropic 的 Fable 所设置的护栏并不满意

Lorenzo Franceschi-Bicchierai

来源与参考

收录于 2026-06-17