Featured image for nejroseti s chelovecheskim vospriyatiem okazalis nadezhnee i stabilnee

Нейросети с человеческим восприятием оказались надежнее и стабильнее

Команда исследователей из Google Deepmind, Anthropic и немецких научных учреждений представила метод, который помогает ИИ-моделям точнее воспроизводить человеческое восприятие визуальной информации. Согласно исследованию, опубликованному в Nature, модели, выровненные по человеческому восприятию, демонстрируют повышенную устойчивость, лучше обобщают и совершают меньше ошибок.

Графическое представление исследования Deepmind AligNet

Глубокие нейросети могут сравниться с людьми в некоторых визуальных задачах, но терпят неудачу в незнакомых ситуациях. Проблема имеет структурный характер: люди организуют визуальные концепции в иерархию — от мелких деталей до широких категорий. ИИ-модели же фокусируются на локальных сходствах и часто упускают абстрактные связи.

Эта разница проявляется в важных аспектах. Люди могут сгруппировать собаку и рыбу как «живых существ», хотя они совершенно не похожи. ИИ такие скачки не делает. Что касается уверенности — люди обычно уверены ровно настолько, насколько точны их суждения, тогда как ИИ может быть чрезвычайно уверенным даже при ошибках.

Визуализация различий между обычными ИИ и моделями с человеческим восприятием

Визуализация демонстрирует, насколько по-разному невыровненные и выровненные по человеческому восприятию ИИ-модели интерпретируют мир.

AligNet: Сокращая разрыв между ИИ и человеческим восприятием

Для преодоления этого разрыва Лукас Муттенхалер и его команда создали AligNet. Основой их подхода стала «суррогатная модель-учитель» — версия мультимодальной модели SigLIP, дообученная на человеческих оценках из набора данных THINGS.

Эта модель-учитель генерирует «псевдочеловеческие» оценки сходства для миллионов синтетических изображений ImageNet. Эти метки затем помогают дообучить ряд моделей компьютерного зрения, включая Vision Transformers (ViT) и самообучающиеся системы типа DINOv2. Модели, выровненные через AligNet, стали значительно чаще соответствовать человеческим суждениям, особенно в задачах абстрактного сравнения.

Диаграмма метода AligNet, показывающая процесс выравнивания нейросетей

На новом наборе данных «Levels», который охватывает разные уровни абстракции и включает оценки 473 человек, модель ViT-B, дообученная через AligNet, даже превзошла средний уровень согласия между людьми.

Как человеческая структура повышает устойчивость моделей

Выравнивание по человеческому восприятию не просто сделало модели более «человечными» — оно улучшило их технические характеристики. В тестах на обобщение и устойчивость модели AligNet иногда более чем вдвое повышали точность по сравнению с базовыми версиями.

Они также лучше справлялись со сложными тестами вроде бенчмарка BREEDS, который заставляет модели работать со сдвигами между обучающими и тестовыми данными. На ImageNet-A с адверсарными примерами точность выросла до 9,5 процентных пунктов. Модели также реалистичнее оценивали собственную неопределенность — их оценки уверенности коррелировали со временем человеческой реакции.

Модели реорганизовали свои внутренние представления. После выравнивания они группировали объекты по смыслу, а не только по внешнему виду — например, ящерицы стали ближе к другим животным, а не только к растениям того же цвета.

Попытки сделать ИИ «более человечным» часто воспринимаются как компромисс с производительностью. Но здесь мы видим обратное — человеческое восприятие оказалось не слабостью, а преимуществом. Модели стали не просто антропоморфными, а технически лучше. Особенно впечатляет рост точности на адверсарных примерах — это прямое свидетельство того, что человеческая иерархическая структура знаний обеспечивает более надежную основу для принятия решений.

По мнению Муттенхалера и его коллег, этот подход может указать путь к созданию ИИ-систем, которые проще интерпретировать и которым можно больше доверять. Внедрение человеческих структур сходства в базовые модели может сделать их более стабильными при столкновении с новыми ситуациями. Впрочем, исследователи предостерегают, что полная человекообразность — не цель, ведь человеческие суждения подвержены культурным и личным предубеждениям.

Источник новости: The Decoder

Похожие записи