Count Anything 让看似简单的计数更进一步
The Decoder··作者 Jonathan Kemper
关键信息
该系统会合并两路预测,并在两种检测器指向同一对象时保留置信度更高的结果,从而避免重复计数。它使用了名为 CLOC 的自建数据集训练,研究人员称该数据集包含约 22 万张图像、619 个类别和 1500 万个标注对象,覆盖六个领域。
资讯摘要
这项新模型名为 Count Anything,目标是让用户只需输入文本提示,就能在图像中对对象进行计数,而这件看似简单的事对现代 AI 来说仍然很难。研究人员表示,它可以处理非常不同的视觉领域,包括日常照片、卫星图像、医学扫描、农业图像以及细菌培养照片。该模型建立在 Meta 的 SAM3 之上,并不是从头重训整个基础模型,而是在其上增加了较小的适配器组件。它采用了两种互补的计数方式:一种适合大而清晰的目标,会画出边界框;另一种适合小而密集的目标,会在每个检测到的对象上放置一个点。最后,系统会把两路输出合并,并通过保留置信度更高的预测来避免重复计数。
为了训练这个系统,团队构建了一个名为 CLOC 的自定义数据集,把多个公开计数数据集整合并清洗后得到。研究人员称,CLOC 目前是最大的文本引导计数数据集之一,包含约 22 万张图像、619 个类别和 1500 万个标注对象,覆盖六个领域。在论文测试中,Count Anything 的平均计数误差优于 CountGD、CLIP-Count 和 Grounding DINO 等竞争系统,但在最好的专用人群计数模型面前仍未完全胜出。研究人员也承认,这个模型在提示词含义模糊、术语过于专业,以及极度密集且遮挡严重的场景下仍会出错。项目代码已发布在 GitHub 上。

资讯正文
名为“Count Anything”的新 AI 模型名副其实,而且这比听起来要难得多
要点
- “Count Anything” 仅凭文本提示,就能对从卫星图像、医学扫描到日常照片等各种图像中的对象进行计数和标注。
- 该系统建立在 Meta 的 SAM3 之上,结合了两种方法:它会为较大的对象画框,并为较小、密集的目标逐点标记,然后在不重复计数的情况下合并结果。
- 该模型使用专门构建的 CLOC 数据集进行训练,在测试中优于许多竞争对手,但在处理含义模糊的术语和极其密集的场景时仍然吃力。
大型语言模型可以描述图像、解读图表,并从照片中提取文字。多模态能力已成为现代 AI 系统的标配。但有一项看似简单的任务仍然出人意料地困难:可靠地数清图像中的对象。
准确完成这项计数具有现实意义,无论是医生阅读扫描图像、农民估算作物产量,还是城市规划者分析交通状况。直到现在,这些任务都需要各自专门的系统。
这就是“Count Anything”的用武之地。来自清华大学及其他机构研究人员推出的这款新 AI 模型,旨在对截然不同类型的图像中的对象进行计数,无论是人群中的人头、卫星照片中的汽车、医学扫描中的细胞,还是实验室里的细菌菌落。
这是一个熟悉的问题。一个能可靠统计人群中人头数量的系统,往往会在显微镜下紧密排列的细胞,或从高空俯视看到的微小车辆面前“卡壳”。研究人员希望打造一个单一模型:既能接收文本输入,在图像中标出每一个被计数的对象,又能处理差异极大的图像类型。
两个计数器总比一个好
其关键思路是结合两种互补的方法。一种专门处理大而清晰可见的对象,并为其画出边界框。另一种则通过在每个检测到的目标上放置一个点,来处理小而密集的对象。
最后,两种预测会被合并。一个简单的规则可防止同一对象被重复计数。当两个计数器都标记到同一目标时,只保留置信度更高的那个预测。
该系统建立在 Meta 的预训练模型 SAM3 之上,后者可以同时处理图像和文本。Count Anything 在其上添加了用于计数任务的小型适配器组件,而不是从头重新训练整个模型。
覆盖六个视觉领域的单一数据集
为了让模型学得如此广泛,研究人员首先必须构建相匹配的数据集。现有公开数据集通常只针对单一用途而建,比如肿瘤细胞或卫星图像。研究人员将这些数据集合并,清理了相互冲突的标签,并将结果发布为 CLOC,他们称其为迄今为止最大的文本引导计数数据集。
该数据集包含约 22 万张图像、619 个类别以及 1500 万个标注对象,覆盖六个领域。其中包括日常照片、卫星和无人机图像、医学组织样本、显微细胞图像、农业图像(如麦穗)以及细菌培养照片。
在其自身基准上表现领先
根据论文,在该团队自己的对比测试中,Count Anything 明显领先于 CountGD、CLIP-Count 和 Grounding DINO 等竞争系统。平均而言,该模型在图像中每个被查询类别上的计数误差约为 9 个目标。表现最好的竞争模型的误差还要高出两倍多。若只看纯粹的群体计数,Count Anything 依然具有竞争力,但还没有完全达到最好的专用系统水平。
研究人员也承认了进一步的局限性。当术语含义模糊或高度专业化时,模型可能会漏检物体或将其误分类。在极其密集、遮挡严重的场景中,也很难判断两个预测究竟指向同一个物体,还是两个不同的物体。Count Anything 的代码已在 GitHub 上开放。
近期的 BabyVision 基准也显示,当前 AI 系统在基础视觉任务上仍然有多么吃力。在对 80 名儿童进行的测试中,大多数前沿模型的得分都低于平均 3 岁儿童。即便是 Gemini 3 Pro 这样的顶级模型,得分也勉强达到 50%,而成年人则超过 94%。在数被遮挡的 3D 积木时,这种差距尤其明显,表现最好的模型也只拿到了 20.5%。人类则在没有任何错误的情况下完成了任务。
来源与参考
收录于 2026-06-14