Featured image for apple predstavila ferret ui lite kompaktnyj ii dlya ponimaniya interfejsov

Apple представила Ferret-UI Lite — компактный ИИ для понимания интерфейсов

В условиях, когда индустрия ИИ стремится к созданию всё более масштабных моделей, Apple представила Ferret-UI Lite — компактную модель с 3 миллиардами параметров, предназначенную для понимания и взаимодействия с элементами пользовательского интерфейса на мобильных, веб- и десктопных платформах. Этот шаг подчёркивает стратегию компании по развитию эффективного ИИ, работающего непосредственно на устройстве.

Как сообщает Analytics Insight, исследование, первоначально опубликованное на arXiv и представленное на OpenReview, демонстрирует, что Ferret-UI Lite способен конкурировать с гораздо более крупными моделями, что является значительным достижением в контексте ограниченных вычислительных ресурсов мобильных устройств.

Принцип работы Ferret-UI Lite

Ferret-UI Lite функционирует как мультимодальная большая языковая модель, извлекающая смысл как из визуального контента, так и из текстовой информации, отображаемой на экране. Система использует метод кадрирования во время вывода (inference-time cropping) для первоначального анализа всего интерфейса, а затем фокусируется на конкретных областях, содержащих важные иконки и текст. Пошаговое принятие решений осуществляется с помощью цепного рассуждения (chain-of-thought reasoning) и обучения с подкреплением.

Для решения проблемы недостатка обучающих данных исследователи Apple разработали конвейер синтетических данных, который имитирует планирование задач и коррекцию ошибок. Этот подход позволяет модели эффективно справляться с реальными проблемами интерфейса, такими как всплывающие окна или не реагирующие на касания элементы.

Производительность и эффективность

На бенчмарках Ferret-UI Lite продемонстрировал впечатляющие результаты, набрав 91,6% на ScreenSpot-V2 и опередив аналогичные 3-миллиардные агенты на ScreenSpot-Pro более чем на 15 процентных пунктов. Эти показатели особенно примечательны, учитывая, что конкурирующие системы могут быть до 24 раз крупнее. Однако стоит отметить, что уровень успешности навигации остаётся умеренным.

Разработка Ferret-UI Lite демонстрирует техническое мастерство Apple в оптимизации ИИ для локального исполнения, что идеально вписывается в их философию конфиденциальности. Однако, несмотря на впечатляющие бенчмарки для компактной модели, её умеренные показатели в навигации и сложности с многошаговыми задачами указывают на фундаментальные ограничения архитектуры. Это скорее демонстрация потенциала для нишевых, простых взаимодействий, чем прорыв к полноценному интеллектуальному ассистенту, способному заменить облачные решения для сложных пользовательских сценариев.

Конфиденциальность и перспективы

Модель работает на локальных системах, не требуя облачной обработки для анализа информации с экрана. Это полностью соответствует стратегии Apple, ориентированной на конфиденциальность, и может обеспечить более глубокие возможности на уровне приложений в будущих обновлениях Siri.

Тем не менее, ограничения остаются. Модель испытывает трудности с выполнением сложных многошаговых задач. Исследователь Чжэ Гань (Zhe Gan) отметил, что основное внимание уделялось эффективному масштабированию вниз, а не созданию более крупных систем. Пока неясно, появится ли Ferret-UI Lite в потребительских продуктах, но его появление подчёркивает долгосрочное видение Apple в области практического ИИ с приоритетом конфиденциальности.

Похожие записи