Featured image for sozdana ii model dlya analiza vsej biosfery zemli bioclip 2

Создана ИИ-модель для анализа всей биосферы Земли BioCLIP 2

Искусственный интеллект научился понимать экосистемы планеты глубже, чем когда-либо прежде. Новая модель BioCLIP 2, обученная на 214 миллионах изображений организмов, демонстрирует способности, которые раньше были доступны только опытным биологам.

От зебр ко всей биосфере

История началась с пари между Таней Бергер-Вольф и её коллегой — сможет ли ИИ идентифицировать отдельных зебр быстрее зоолога. ИИ победил. Теперь профессор Университета Огайо представляет BioCLIP 2 — биологическую фундаментальную модель, обученную на самом большом и разнообразном наборе данных об организмах.

BioCLIP 2 выходит за рамки простого извлечения информации из изображений. Модель может различать признаки видов и определять межвидовые и внутривидовые отношения. Например, она организовала зябликов Дарвина по размеру клюва без явного обучения понятию размера.

Диаграмма рассеяния, показывающая распределение вьюрков Дарвина по размеру клюва в модели BioCLIP 2
Источник: blogs.nvidia.com

Эти возможности позволят исследователям использовать модель как биологическую энциклопедию, мощную научную платформу и интерактивный инструмент для решения проблемы дефицита данных в биологии сохранения.

Поразительно, как модель научилась иерархии таксономии без явных указаний — просто через ассоциации изображений. Это напоминает, как дети учатся классифицировать животных, видя их в разных контекстах. Технология обещает революцию в экологических исследованиях, но главный вызов — обеспечить её доступность для учёных из развивающихся стран, где биоразнообразие наиболее уязвимо.

Самый большой биологический флэш-карточный набор

Проект начался с создания огромного набора данных TREEOFLIFE-200M, который включает 214 миллионов изображений организмов, охватывающих более 925 000 таксономических классов — от обезьян до мучных червей и магнолий.

Изображение обезьяны из набора данных Древо Жизни TREEOFLIFE-200M
Источник: blogs.nvidia.com

Для курирования этого огромного объема данных команда Бергер-Вольф из Imageomics Institute сотрудничала с Смитсоновским институтом, экспертами из различных университетов и другими полевыми организациями.

После 10 дней обучения на 32 NVIDIA H100 GPU BioCLIP 2 продемонстрировала новые способности, такие как различение взрослых и молодых особей, а также самцов и самок внутри видов — без явного обучения этим понятиям.

Модель также устанавливает связи между родственными видами — например, понимая, как зебры относятся к другим лошадиным.

Цифровые двойники дикой природы

Следующее начинание исследователей — разработка интерактивного цифрового двойника дикой природы, который можно использовать для визуализации и моделирования экологических взаимодействий между видами, а также их способов взаимодействия с окружающей средой.

Цель состоит в том, чтобы предоставить безопасный и простой способ изучения организмных отношений, которые естественным образом происходят в дикой природе, сводя к минимуму воздействие и нарушение экосистем.

«Цифровой двойник позволяет нам визуализировать взаимодействия видов и помещать их в контекст, а также проигрывать сценарии «что если» и тестировать наши модели, не разрушая реальную среду — создавая как можно меньший след», — сказала Бергер-Вольф.

В конечном счете, версии этой технологии могут быть развернуты для общественного использования — например, через интерактивные платформы в зоопарках. Люди могли бы исследовать, визуализировать и узнавать о природной среде и её многочисленных видах с совершенно новых точек зрения.

BioCLIP 2 доступна по открытой лицензии на Hugging Face, где её скачали более 45 000 раз за последний месяц. Доклад о BioCLIP 2 будет представлен на конференции NeurIPS, которая проходит с 30 ноября по 5 декабря в Мехико и со 2 по 7 декабря в Сан-Диего.

По сообщению NVIDIA.

Похожие записи