Featured image for startap openagi zayavlyaet o prevoshodstve svoego ii agenta lux nad openai i anthropic

Стартап OpenAGI заявляет о превосходстве своего ИИ-агента Lux над OpenAI и Anthropic

Ещё одна неделя, ещё один стартап, который «крушит» гигантов. На этот раз OpenAGI, компания из Сан-Франциско, основанная исследователем MIT, вышла из скрытого режима с моделью Lux — AI-агентом для управления компьютером. Заявление громкое: их система не только обходит по ключевому бенчмарку продукты OpenAI и Anthropic, но и делает это в десять раз дешевле. Цифры, которыми они оперируют, действительно впечатляют: 83,6% успеха против 61,3% у OpenAI Operator и 56,3% у Claude Computer Use. Но в индустрии, перегретой маркетингом, каждый такой анонс требует в первую очередь проверки на вменяемость.

Бенчмарк, который отделяет хайп от реальности

Ключ к пониманию заявлений OpenAGI лежит в Online-Mind2Web — бенчмарке, который за год стал неформальным стандартом для оценки веб-агентов. Его создали исследователи из Университета Огайо и Калифорнийского университета в Беркли специально для того, чтобы выявить разрыв между рекламными обещаниями и реальной производительностью. В отличие от более ранних тестов, Online-Mind2Web запускает агентов на живых, динамически меняющихся сайтах — от бронирования авиабилетов до сложных корзин в e-commerce.

Результаты, опубликованные в апреле и принятые на Conference on Language Modeling 2025, оказались отрезвляющими. Многие разрекламированные системы, включая коммерческие продукты, не показали значимого прогресса по сравнению с относительно простым агентом SeeAct, выпущенным в начале 2024 года. В сопроводительном посте авторы прямо пишут об «иллюзии прогресса» и фундаментальных пробелах в исследованиях. Именно на этом строгом полигоне Lux демонстрирует свой лучший результат.

Обучение действиям, а не словам

Секрет Lux, по словам CEO OpenAGI Цзэнъи Циня, кроется в методологии Agentic Active Pre-training. Если классические большие языковые модели (LLM) учатся на текстовых корпусах, предсказывая следующее слово, то Lux тренируется на парах скриншот — последовательность действий. Модель учится интерпретировать визуальный интерфейс и определять, какие клики, нажатия клавиш и шаги навигации приведут к цели.

«Действие позволяет модели активно исследовать компьютерное окружение, и такое исследование генерирует новые знания, которые затем возвращаются в модель для обучения», — объяснил Цинь в интервью. По сути, это самоусиливающийся цикл: более совершенная модель производит лучшее исследование, которое создаёт более качественные данные для её же улучшения. Такой подход теоретически может дать небольшой команде преимущество перед гигантами, которым нужны колоссальные статические датасеты.

Не только браузер: контроль над десктопом

Ещё одно важное отличие Lux от многих конкурентов — способность работать не только в браузере, но и с нативными десктопными приложениями, такими как Slack, Excel или Adobe-продукты. Это критически расширяет область применения агента, переводя его из категории «умного помощника для веба» в категорию универсального автономного работника для цифрового рабочего места.

OpenAGI также анонсировала партнёрство с Intel для оптимизации Lux под edge-устройства, что позволит запускать модель локально на ноутбуках без облачной инфраструктуры. Это прямой ответ на запросы предприятий, опасающихся отправлять чувствительные скриншоты на внешние серверы. Компания подтвердила и переговоры с AMD и Microsoft о возможном сотрудничестве.

История с Lux — отличный пример того, как рынок AI-агентов начинает взрослеть. Появление независимого и жёсткого бенчмарка вроде Online-Mind2Web — это сигнал для всей индустрии: пора перестать мериться размерами моделей в токенах и начать отвечать за реальную производительность в сложных, динамичных средах. Заявления OpenAGI выглядят смело, но именно такие вызовы со стороны небольших игроков заставляют гигантов вроде OpenAI и Google не почивать на лаврах, а реально улучшать свои продукты. Правда, всегда стоит помнить, что между презентацией на сайте и работающим продуктом в продакшене — дистанция огромного размера. Пока что мы видим лишь первое, очень эффектное, актёрское представление.

Темная сторона автономных агентов

Статья обрывается на самом интересном — вопросах безопасности. Автономный агент, который может выполнять любые действия на компьютере пользователя, представляет собой принципиально новый класс рисков. Что произойдёт, если попросить такого агента скопировать банковские реквизиты или автоматизировать мошенническую схему? Без продуманных «предохранителей» на уровне архитектуры модели и её взаимодействия с системой, такие технологии могут создать больше проблем, чем решить. OpenAGI в своём анонсе лишь намекает на эту тему, что само по себе является тревожным звоночком.

По материалам VentureBeat.

Похожие записи