Создана ИИ-модель для анализа всей биосферы Земли BioCLIP 2
Искусственный интеллект научился понимать экосистемы планеты глубже, чем когда-либо прежде. Новая модель BioCLIP 2, обученная на 214 миллионах изображений организмов, демонстрирует способности, которые раньше были доступны только опытным биологам.
От зебр ко всей биосфере
История началась с пари между Таней Бергер-Вольф и её коллегой — сможет ли ИИ идентифицировать отдельных зебр быстрее зоолога. ИИ победил. Теперь профессор Университета Огайо представляет BioCLIP 2 — биологическую фундаментальную модель, обученную на самом большом и разнообразном наборе данных об организмах.
BioCLIP 2 выходит за рамки простого извлечения информации из изображений. Модель может различать признаки видов и определять межвидовые и внутривидовые отношения. Например, она организовала зябликов Дарвина по размеру клюва без явного обучения понятию размера.

Эти возможности позволят исследователям использовать модель как биологическую энциклопедию, мощную научную платформу и интерактивный инструмент для решения проблемы дефицита данных в биологии сохранения.
Поразительно, как модель научилась иерархии таксономии без явных указаний — просто через ассоциации изображений. Это напоминает, как дети учатся классифицировать животных, видя их в разных контекстах. Технология обещает революцию в экологических исследованиях, но главный вызов — обеспечить её доступность для учёных из развивающихся стран, где биоразнообразие наиболее уязвимо.
Самый большой биологический флэш-карточный набор
Проект начался с создания огромного набора данных TREEOFLIFE-200M, который включает 214 миллионов изображений организмов, охватывающих более 925 000 таксономических классов — от обезьян до мучных червей и магнолий.

Для курирования этого огромного объема данных команда Бергер-Вольф из Imageomics Institute сотрудничала с Смитсоновским институтом, экспертами из различных университетов и другими полевыми организациями.
После 10 дней обучения на 32 NVIDIA H100 GPU BioCLIP 2 продемонстрировала новые способности, такие как различение взрослых и молодых особей, а также самцов и самок внутри видов — без явного обучения этим понятиям.
Модель также устанавливает связи между родственными видами — например, понимая, как зебры относятся к другим лошадиным.
Цифровые двойники дикой природы
Следующее начинание исследователей — разработка интерактивного цифрового двойника дикой природы, который можно использовать для визуализации и моделирования экологических взаимодействий между видами, а также их способов взаимодействия с окружающей средой.
Цель состоит в том, чтобы предоставить безопасный и простой способ изучения организмных отношений, которые естественным образом происходят в дикой природе, сводя к минимуму воздействие и нарушение экосистем.
«Цифровой двойник позволяет нам визуализировать взаимодействия видов и помещать их в контекст, а также проигрывать сценарии «что если» и тестировать наши модели, не разрушая реальную среду — создавая как можно меньший след», — сказала Бергер-Вольф.
В конечном счете, версии этой технологии могут быть развернуты для общественного использования — например, через интерактивные платформы в зоопарках. Люди могли бы исследовать, визуализировать и узнавать о природной среде и её многочисленных видах с совершенно новых точек зрения.
BioCLIP 2 доступна по открытой лицензии на Hugging Face, где её скачали более 45 000 раз за последний месяц. Доклад о BioCLIP 2 будет представлен на конференции NeurIPS, которая проходит с 30 ноября по 5 декабря в Мехико и со 2 по 7 декабря в Сан-Диего.
По сообщению NVIDIA.
