Count Anything: Новая модель ИИ для универсального подсчета

Современные мультимодальные системы уже давно приучили нас к тому, что ИИ может описывать пейзажи, расшифровывать медицинские графики и извлекать текст из фотографий, однако одна из самых базовых человеческих способностей — умение точно считать объекты — до сих пор оставалась для алгоритмов камнем преткновения. Исследователи из Университета Цинхуа представили модель под названием Count Anything, которая, как сообщает The Decoder, способна находить и пересчитывать цели в самых разных визуальных средах: от спутниковых снимков до микроскопических мазков крови.

Проблема специализированных систем подсчета всегда заключалась в их узкой направленности: алгоритм, идеально считающий автомобили на парковке, обычно пасует перед колониями бактерий в чашке Петри или колосьями пшеницы в поле. Count Anything стремится стать тем самым универсальным инструментом, который понимает текстовый запрос пользователя и отмечает каждый найденный объект, независимо от того, насколько плотно они расположены или к какому домену относится изображение.

Гибридный метод и архитектурные решения

В основе архитектуры лежит изящное, хотя и не лишенное иронии в своей простоте решение: объединение двух разных подходов, которые компенсируют недостатки друг друга. Первый метод фокусируется на крупных объектах, выделяя их ограничивающими рамками, в то время как второй специализируется на мелких и плотных скоплениях, помечая каждый целевой объект точкой.

Система базируется на фундаменте модели SAM3 от компании Meta*, предназначенной для сегментации изображений. Вместо того чтобы переучивать всю нейросеть целиком, разработчики добавили компактные адаптеры, настроенные специально под задачи подсчета. Это позволяет сохранить общие знания модели о мире, добавив ей специфическую «математическую» зоркость без катастрофических затрат на вычисления.

Для обучения такого универсала потребовался соответствующий массив данных. Исследователи объединили разрозненные наборы в единый датасет CLOC, который включает 220 000 изображений и охватывает шесть доменов: от повседневных фото до гистопатологии. Результаты впечатляют: в тестах модель ошибается в среднем на 9 объектов, в то время как ближайшие конкуренты, такие как CountGD или Grounding DINO, показывают погрешность в два раза выше.

Архитектурная надстройка над SAM3 лишь маскирует фундаментальную проблему: модель все еще не понимает суть объекта, а лишь сопоставляет паттерны. В условиях реального производства, где цена ошибки в подсчете микродефектов или клеток критична, доверие к системе с погрешностью в девять единиц остается под вопросом. Это отличный шаг к универсальному зрению, но пока это скорее продвинутый статистический классификатор, чем надежный аудитор.

Практические ограничения и человеческий фактор

Несмотря на технологический рывок, авторы работы признают наличие «белых пятен» в работе алгоритма. При столкновении с неоднозначными терминами или узкоспециализированной терминологией модель может ошибочно классифицировать объекты или вовсе их игнорировать. В сценах с экстремально высокой плотностью, где объекты перекрывают друг друга, системе становится трудно отличить две разные точки от одной, что ведет к неизбежным статистическим искажениям.

Ситуация с Count Anything лишний раз подчеркивает разрыв между машинным и человеческим восприятием, который недавно был зафиксирован в бенчмарке BabyVision. Там топовые модели ИИ показали результаты хуже трехлетнего ребенка, особенно в задачах на подсчет частично скрытых объектов. Оказывается, то, что для человека является естественным навыком, для нейросети остается сложнейшей математической абстракцией, требующей миллионов примеров для обучения.

*Meta признана экстремистской и запрещена в РФ

Китайские ученые представили модель Count Anything, которая умеет только считать объекты

Гибридный метод и архитектурные решения

Практические ограничения и человеческий фактор

Google Earth AI: как ИИ поможет предсказывать природные катастрофы

Google представила масштабируемый алгоритм для защиты приватности больших данных

Как логистический оператор сделал прогнозирование судовых расписаний точнее с помощью ML

NVIDIA выпустила набор синтетических данных американских персонажей для обучения ИИ

Salesforce представила SCUBA — первый бенчмарк для оценки корпоративных ИИ-агентов

BigQuery ML расширяет возможности генерации эмбеддингов с Gemini и открытыми моделями

Гибридный метод и архитектурные решения

Практические ограничения и человеческий фактор

Похожие записи