Microsoft представила компактную модель Fara-7B для автоматизации работы с компьютером
Microsoft Research анонсировала выпуск Fara-7B — первой агентской модели малого размера, специально разработанной для автоматизации работы с компьютером. В отличие от традиционных чат-ботов, эта модель взаимодействует с интерфейсом через мышь и клавиатуру, выполняя задачи вместо пользователя.
Технические особенности и преимущества
При скромных 7 миллиардах параметров Fara-7B демонстрирует производительность на уровне более крупных систем, при этом её можно запускать непосредственно на устройствах. Это обеспечивает снижение задержек и повышение конфиденциальности, поскольку пользовательские данные остаются локально.
Модель воспринимает веб-страницу визуально и выполняет действия — прокрутку, ввод текста, клики по предсказанным координатам. Она не требует отдельных моделей для анализа экрана или дополнительной информации вроде деревьев доступности, работая теми же способами, что и человек.
Мы создаем ИИ для автоматизации рутины, но сами разработчики потратили годы на создание сложнейших конвейеров синтетических данных. Fara-7B — это интересный эксперимент в области эффективности: сможет ли компактная модель заменить дорогостоящие ансамбли больших языковых моделей для простых веб-задач? Ответ пока неоднозначен, но направление многообещающее.
Архитектура обучения и ограничения
Для обучения Fara-7B Microsoft разработала инновационный конвейер генерации синтетических данных для многошаговых веб-задач, основанный на реальных веб-страницах и задачах от пользователей. Процесс включает три этапа:
- Генерация задач — создание разнообразных сценариев, имитирующих реальную активность пользователей
- Решение задач — использование многоагентной системы на базе Magentic-One для выполнения задач и создания демонстраций
- Финальная обработка — подготовка данных для контролируемого дообучения

Несмотря на впечатляющие результаты в бенчмарках, включая новый WebTailBench для задач поиска работы и сравнения цен, модель сохраняет ограничения более крупных систем:
- Трудности с точностью на сложных задачах
- Ошибки в выполнении инструкций
- Склонность к галлюцинациям
Доступность и практическое применение
Fara-7B доступна на Microsoft Foundry и Hugging Face под лицензией MIT. Также представлена квантованная и оптимизированная версия для Copilot+ PCs на Windows 11.
Microsoft рекомендует запускать модель в изолированной среде, мониторить её выполнение и избегать работы с конфиденциальными данными или высокорисковыми доменами. Это экспериментальный релиз, предназначенный для исследований и получения обратной связи от сообщества.
Создавая Fara-7B с открытыми весами, Microsoft стремится снизить барьер для экспериментов с технологиями автоматизации рутинных веб-задач: поиска информации, покупок, бронирования и управления аккаунтами.
По материалам Microsoft Research.
