Nomadic 获得 840 万美元融资,用视觉语言模型整理自动驾驶车辆数据
TechCrunch AI··作者 Tim Fernholz
关键信息
该平台被设计为一种“代理式推理系统”,能理解自然语言查询,并使用多个模型识别视频中的相关动作,而不仅仅是标注内容。
资讯摘要
由 Mustafa Bal 和 Varun Krishnan 创立的 NomadicML 已获得 840 万美元种子轮融资,估值达 5000 万美元,旨在解决自动驾驶车辆和机器人生成的海量视频数据难以组织的问题。目前企业依赖人工标注,效率低且无法扩展。Nomadic 的平台利用视觉语言模型将原始视频转化为可搜索的结构化数据,使工程师能够快速找到罕见但关键的事件,如警察指挥下闯红灯或特定桥梁下的行驶情况,从而加速合规检查和 AI 模型训练。
早期客户包括 Zoox、三菱电机和 Zendar,他们表示相比外包,效率大幅提升。该公司还赢得了英伟达 GTC 演讲比赛的第一名,显示出行业高度认可。

资讯正文
为了打造未来的自动驾驶机器,有时你的模型需要一个模型。
开发自动驾驶汽车、操控物理环境的机器人或自主施工设备的公司,会收集数千甚至数百万小时的视频数据用于评估和训练。
组织和归档这些视频现在成了人类的工作,他们必须观看全部内容。即使快进播放,这种做法也无法扩展。由首席执行官Mustafa Bal和首席技术官Varun Krishnan创立的初创公司NomadicML,希望解决那些拥有95%车队数据被存放在档案中的客户所面临的问题。
当寻找边缘案例时,挑战变得更加严峻——最有价值的数据描绘的是很少发生的情况,而这些情况往往会让缺乏经验的物理AI模型感到困惑。
Nomadic正在通过一个平台来解决这个问题,该平台利用一系列视觉语言模型将视频片段转化为结构化且可搜索的数据集。这反过来又有助于更好的车队监控,并为强化学习创建独特数据集,加快迭代速度。
该公司周二宣布完成840万美元种子轮融资,投后估值达5000万美元。本轮融资由TQ Ventures领投,Pear VC和Jeff Dean参与投资,资金将用于吸纳更多客户并持续优化其平台。此外,Nomadic上个月还在英伟达GTC路演比赛中获得第一名。
两位创始人曾在哈佛大学计算机科学专业本科期间相识,Bal告诉TechCrunch:“我们在Lyft和Snowflake等公司工作时,不断遇到同样的技术难题。”
“我们为客户提供对自己视频内容的洞察,无论是驱动他们的自动驾驶车辆还是机器人,”他说,“这才是推动自动驾驶系统开发者前进的关键,而不是随机数据。”
举个例子,假设你要微调一辆自动驾驶汽车对红灯的理解:如果警察指挥它可以通过红灯,那么该如何识别这种情况?或者,如何隔离所有车辆驶过某种特定桥梁的时刻?Nomadic的平台可以识别这些事件,既可用于合规目的,也可直接输入到训练管道中。
客户如Zoox、三菱电机、Natix Network和Zendar已经使用该平台开发智能机器。Zendar工程副总裁安东尼奥·普格利亚利表示,Nomadic的工具使公司能够比外包更快地扩展工作,而且其领域专业知识使其在竞争对手中脱颖而出。
这种基于模型的自动标注工具正在成为物理AI的关键工作流程。像Scale、Kognic和Encord这样的老牌数据标注公司正在开发AI工具来完成这项工作,而英伟达也发布了名为Alpamayo的一系列开源模型,可被调整用于解决这一问题。
瓦伦认为,他们公司的工具不仅仅是标注器,而是一个“代理推理系统”:你描述需要什么,它就能找出如何找到它”,利用多个模型理解正在进行的动作并将其置于上下文中。Nomadic的投资方预期,这家初创企业对这一特定基础设施的关注将最终胜出。
TQ Ventures合伙人施特劳斯·坦格尔(Schuster Tanger)领导了本轮融资,他对TechCrunch表示:“这就像Salesforce不自己搭建云服务,Netflix也不自己建设内容分发设施一样。一旦自动驾驶汽车公司试图内部构建Nomadic,就会分散注意力,而真正让他们获胜的是机器人本身。”
坦格尔称赞了Nomadic的人才团队,指出克里希南是一位国际象棋大师,世界排名为第1549位。与此同时,克里希南自豪地表示,公司十几名工程师都发表过科学论文。
现在,他们正全力以赴开发具体的工具,比如一个能从摄像头画面中理解变道物理规律的工具,或另一个能从视频中更精确地推导机器人夹爪位置的工具。从Nomadic及其客户的角度来看,下一个挑战是开发适用于非视觉数据(如激光雷达传感器读数)的类似工具,或者整合多种传感器的数据。
“处理数TB的视频数据,用数百个参数超过1000亿的大模型进行冲击,并从中提取准确见解,真的非常困难,”巴尔说道。
来源与参考
收录于 2026-04-01