Featured image for kitajskie uchenye predstavili model count anything kotoraya umeet tolko schitat obekty

Китайские ученые представили модель Count Anything, которая умеет только считать объекты

Современные мультимодальные системы уже давно приучили нас к тому, что ИИ может описывать пейзажи, расшифровывать медицинские графики и извлекать текст из фотографий, однако одна из самых базовых человеческих способностей — умение точно считать объекты — до сих пор оставалась для алгоритмов камнем преткновения. Исследователи из Университета Цинхуа представили модель под названием Count Anything, которая, как сообщает The Decoder, способна находить и пересчитывать цели в самых разных визуальных средах: от спутниковых снимков до микроскопических мазков крови.

Проблема специализированных систем подсчета всегда заключалась в их узкой направленности: алгоритм, идеально считающий автомобили на парковке, обычно пасует перед колониями бактерий в чашке Петри или колосьями пшеницы в поле. Count Anything стремится стать тем самым универсальным инструментом, который понимает текстовый запрос пользователя и отмечает каждый найденный объект, независимо от того, насколько плотно они расположены или к какому домену относится изображение.

Гибридный метод и архитектурные решения

В основе архитектуры лежит изящное, хотя и не лишенное иронии в своей простоте решение: объединение двух разных подходов, которые компенсируют недостатки друг друга. Первый метод фокусируется на крупных объектах, выделяя их ограничивающими рамками, в то время как второй специализируется на мелких и плотных скоплениях, помечая каждый целевой объект точкой.

Система базируется на фундаменте модели SAM3 от компании Meta*, предназначенной для сегментации изображений. Вместо того чтобы переучивать всю нейросеть целиком, разработчики добавили компактные адаптеры, настроенные специально под задачи подсчета. Это позволяет сохранить общие знания модели о мире, добавив ей специфическую «математическую» зоркость без катастрофических затрат на вычисления.

Для обучения такого универсала потребовался соответствующий массив данных. Исследователи объединили разрозненные наборы в единый датасет CLOC, который включает 220 000 изображений и охватывает шесть доменов: от повседневных фото до гистопатологии. Результаты впечатляют: в тестах модель ошибается в среднем на 9 объектов, в то время как ближайшие конкуренты, такие как CountGD или Grounding DINO, показывают погрешность в два раза выше.

Архитектурная надстройка над SAM3 лишь маскирует фундаментальную проблему: модель все еще не понимает суть объекта, а лишь сопоставляет паттерны. В условиях реального производства, где цена ошибки в подсчете микродефектов или клеток критична, доверие к системе с погрешностью в девять единиц остается под вопросом. Это отличный шаг к универсальному зрению, но пока это скорее продвинутый статистический классификатор, чем надежный аудитор.

Практические ограничения и человеческий фактор

Несмотря на технологический рывок, авторы работы признают наличие «белых пятен» в работе алгоритма. При столкновении с неоднозначными терминами или узкоспециализированной терминологией модель может ошибочно классифицировать объекты или вовсе их игнорировать. В сценах с экстремально высокой плотностью, где объекты перекрывают друг друга, системе становится трудно отличить две разные точки от одной, что ведет к неизбежным статистическим искажениям.

Ситуация с Count Anything лишний раз подчеркивает разрыв между машинным и человеческим восприятием, который недавно был зафиксирован в бенчмарке BabyVision. Там топовые модели ИИ показали результаты хуже трехлетнего ребенка, особенно в задачах на подсчет частично скрытых объектов. Оказывается, то, что для человека является естественным навыком, для нейросети остается сложнейшей математической абстракцией, требующей миллионов примеров для обучения.

*Meta признана экстремистской и запрещена в РФ

Похожие записи