Count Anything 让看似简单的计数更进一步

The Decoder·6月14日 01:00 UTC·作者 Jonathan Kemper

关键信息

该系统会合并两路预测，并在两种检测器指向同一对象时保留置信度更高的结果，从而避免重复计数。它使用了名为 CLOC 的自建数据集训练，研究人员称该数据集包含约 22 万张图像、619 个类别和 1500 万个标注对象，覆盖六个领域。

资讯摘要

这项新模型名为 Count Anything，目标是让用户只需输入文本提示，就能在图像中对对象进行计数，而这件看似简单的事对现代 AI 来说仍然很难。研究人员表示，它可以处理非常不同的视觉领域，包括日常照片、卫星图像、医学扫描、农业图像以及细菌培养照片。该模型建立在 Meta 的 SAM3 之上，并不是从头重训整个基础模型，而是在其上增加了较小的适配器组件。它采用了两种互补的计数方式：一种适合大而清晰的目标，会画出边界框；另一种适合小而密集的目标，会在每个检测到的对象上放置一个点。最后，系统会把两路输出合并，并通过保留置信度更高的预测来避免重复计数。

为了训练这个系统，团队构建了一个名为 CLOC 的自定义数据集，把多个公开计数数据集整合并清洗后得到。研究人员称，CLOC 目前是最大的文本引导计数数据集之一，包含约 22 万张图像、619 个类别和 1500 万个标注对象，覆盖六个领域。在论文测试中，Count Anything 的平均计数误差优于 CountGD、CLIP-Count 和 Grounding DINO 等竞争系统，但在最好的专用人群计数模型面前仍未完全胜出。研究人员也承认，这个模型在提示词含义模糊、术语过于专业，以及极度密集且遮挡严重的场景下仍会出错。项目代码已发布在 GitHub 上。

资讯正文

名为“Count Anything”的新 AI 模型名副其实，而且这比听起来要难得多

要点

- “Count Anything” 仅凭文本提示，就能对从卫星图像、医学扫描到日常照片等各种图像中的对象进行计数和标注。

- 该系统建立在 Meta 的 SAM3 之上，结合了两种方法：它会为较大的对象画框，并为较小、密集的目标逐点标记，然后在不重复计数的情况下合并结果。

- 该模型使用专门构建的 CLOC 数据集进行训练，在测试中优于许多竞争对手，但在处理含义模糊的术语和极其密集的场景时仍然吃力。

大型语言模型可以描述图像、解读图表，并从照片中提取文字。多模态能力已成为现代 AI 系统的标配。但有一项看似简单的任务仍然出人意料地困难：可靠地数清图像中的对象。

准确完成这项计数具有现实意义，无论是医生阅读扫描图像、农民估算作物产量，还是城市规划者分析交通状况。直到现在，这些任务都需要各自专门的系统。

这就是“Count Anything”的用武之地。来自清华大学及其他机构研究人员推出的这款新 AI 模型，旨在对截然不同类型的图像中的对象进行计数，无论是人群中的人头、卫星照片中的汽车、医学扫描中的细胞，还是实验室里的细菌菌落。

这是一个熟悉的问题。一个能可靠统计人群中人头数量的系统，往往会在显微镜下紧密排列的细胞，或从高空俯视看到的微小车辆面前“卡壳”。研究人员希望打造一个单一模型：既能接收文本输入，在图像中标出每一个被计数的对象，又能处理差异极大的图像类型。

两个计数器总比一个好

其关键思路是结合两种互补的方法。一种专门处理大而清晰可见的对象，并为其画出边界框。另一种则通过在每个检测到的目标上放置一个点，来处理小而密集的对象。

最后，两种预测会被合并。一个简单的规则可防止同一对象被重复计数。当两个计数器都标记到同一目标时，只保留置信度更高的那个预测。

该系统建立在 Meta 的预训练模型 SAM3 之上，后者可以同时处理图像和文本。Count Anything 在其上添加了用于计数任务的小型适配器组件，而不是从头重新训练整个模型。

覆盖六个视觉领域的单一数据集

为了让模型学得如此广泛，研究人员首先必须构建相匹配的数据集。现有公开数据集通常只针对单一用途而建，比如肿瘤细胞或卫星图像。研究人员将这些数据集合并，清理了相互冲突的标签，并将结果发布为 CLOC，他们称其为迄今为止最大的文本引导计数数据集。

该数据集包含约 22 万张图像、619 个类别以及 1500 万个标注对象，覆盖六个领域。其中包括日常照片、卫星和无人机图像、医学组织样本、显微细胞图像、农业图像（如麦穗）以及细菌培养照片。

在其自身基准上表现领先

根据论文，在该团队自己的对比测试中，Count Anything 明显领先于 CountGD、CLIP-Count 和 Grounding DINO 等竞争系统。平均而言，该模型在图像中每个被查询类别上的计数误差约为 9 个目标。表现最好的竞争模型的误差还要高出两倍多。若只看纯粹的群体计数，Count Anything 依然具有竞争力，但还没有完全达到最好的专用系统水平。

研究人员也承认了进一步的局限性。当术语含义模糊或高度专业化时，模型可能会漏检物体或将其误分类。在极其密集、遮挡严重的场景中，也很难判断两个预测究竟指向同一个物体，还是两个不同的物体。Count Anything 的代码已在 GitHub 上开放。

近期的 BabyVision 基准也显示，当前 AI 系统在基础视觉任务上仍然有多么吃力。在对 80 名儿童进行的测试中，大多数前沿模型的得分都低于平均 3 岁儿童。即便是 Gemini 3 Pro 这样的顶级模型，得分也勉强达到 50%，而成年人则超过 94%。在数被遮挡的 3D 积木时，这种差距尤其明显，表现最好的模型也只拿到了 20.5%。人类则在没有任何错误的情况下完成了任务。

来源与参考

收录于 2026-06-14