Консорциум европейских компаний и университетов выпустил языковую модель EuroLLM-22B
На фоне доминирования американских и китайских гигантов в области искусственного интеллекта, европейские исследователи сделали важный шаг к технологическому суверенитету. Консорциум из десяти университетов и компаний представил EuroLLM-22B — крупнейшую на сегодня полностью открытую языковую модель, созданную в Европе и заточенную на поддержку всех официальных языков Евросоюза.
Модель с 22 миллиардами параметров была обучена на суперкомпьютере MareNostrum5 в рамках программы EuroHPC и обработала около 4 триллионов токенов данных. В отличие от многих англоцентричных открытых моделей, таких как Llama или Mistral, EuroLLM-22B изначально проектировалась как мультиязычная система. Она поддерживает понимание и генерацию текста на 24 официальных языках ЕС, а также на 11 стратегически важных международных языках, включая русский, китайский и арабский.
Технические характеристики и обучение
Контекстное окно модели составляет 32 тысячи токенов. Обучение проходило в три этапа на кластере из 400 графических ускорителей Nvidia H100.
- Начальное предобучение (3.6 трлн токенов): Базовая стадия на смеси веб-данных, параллельных корпусов, Википедии, научных статей (Arxiv), книг, математических и кодовых датасетов.
- Аннелинг (400 млрд токенов): Линейное снижение скорости обучения и повышение доли многоязычного контента высокого качества, отфильтрованного с помощью моделей CometKiwi-22 и EuroFilter.
- Аннелинг до нуля (100 млрд токенов): Финальная полировка модели на данных высшего качества с апсэмплингом длинных контекстов для расширения окна.
После предобучения модель прошла посттренировку (post-training) на инструкциях и диалогах, превратившись в EuroLLM-22B-Instruct, способную вести многоходовые беседы.
Релиз EuroLLM-22B — это не просто техническая демонстрация, а четкий политический и рыночный сигнал. Европа пытается создать свою собственную, не зависящую от Big Tech, экосистему ИИ, основанную на принципах открытости и многоязычия. Интересно, что модель уже показывает конкурентоспособные результаты в переводе, опережая такие тяжеловесы, как Gemma-3-27B и Qwen-3-32B, по некоторым метрикам. Это доказывает, что фокус на качестве данных и специализации может компенсировать разрыв в размере модели. Однако главный вызов для подобных инициатив — не разовая тренировка на грантовые деньги, а создание устойчивого цикла разработки и коммерциализации, способного конкурировать с почти неограниченными ресурсами корпораций.
Производительность и бенчмарки
Как сообщает Hugging Face в своем блоге, модель оценивалась по широкому спектру тестов, включая многоязычные и англоязычные бенчмарки.

В многоязычных тестах (HellaSwag, MMLU, ARC-Challenge, FLORES, WMT24++) EuroLLM-22B демонстрирует сильные результаты, особенно в задачах машинного перевода между европейскими языками. Согласно таблицам, она является лучшей на сегодня полностью открытой моделью европейского происхождения.

В чисто английских бенчмарках (IFEval, BBH, GPQA, GSM8K, HumanEval) 22-миллиардная модель, ожидаемо, уступает более крупным коммерческим и полуоткрытым аналогам вроде Llama 3.1 70B или Command R+, но занимает достойное место в своей весовой категории.
Что это значит для рынка
Появление EuroLLM-22B важно по нескольким причинам:
- Технологический суверенитет: Европа получает инструмент для разработки ИИ-приложений, не зависящий от американских API и моделей с ограниченными лицензиями.
- Поддержка малых языков: Фокус на всех языках ЕС, включая ирландский и мальтийский, решает проблему «цифрового вымирания» лингвистических меньшинств.
- Открытая альтернатива: Полностью открытая модель (не только веса, но и данные, код обучения) дает возможность локальным провайдерам, исследователям и регуляторам глубоко изучать, дообучавать и аудировать систему.
Модель уже доступна на Hugging Face в двух вариантах: базовая предобученная и инструктивная. Авторы обещают в ближайшем будущем выпустить технический отчет с деталями, дополнительные чекпоинты и более мощные модели с мультимодальными возможностями.
EuroLLM-22B — это серьезная заявка на участие в глобальной гонке ИИ, сделанная с европейским акцентом на открытость, инклюзивность и качество данных. Удастся ли этому проекту выйти за рамки академического исследования и создать устойчивую экосистему — покажет время. Но сам факт появления такой модели меняет расстановку сил на рынке открытых языковых моделей.
