Featured image for ibm vypuskaet sverhkompaktnye yazykovye modeli granite 4 0 nano

IBM выпускает сверхкомпактные языковые модели Granite 4.0 Nano

Сегодня IBM представила свои самые маленькие языковые модели — Granite 4.0 Nano, созданные для работы на устройствах с ограниченными ресурсами. Эти модели демонстрируют впечатляющую производительность при минимальном количестве параметров, что открывает новые возможности для вычислений на периферии.

Архитектура и особенности

Как и все модели семейства Granite 4.0, Nano-версии выпускаются под лицензией Apache 2.0 и поддерживают популярные среды выполнения, включая vLLM, llama.cpp и MLX. Модели обучались на тех же улучшенных методологиях и более 15 триллионах токенов данных, что и их полноразмерные аналоги.

В релиз вошли четыре версии моделей с инструкциями и их базовые аналоги:

  • Granite 4.0 H 1B — плотная LLM примерно с 1,5 миллиардами параметров на основе гибридной SSM-архитектуры
  • Granite 4.0 H 350M — плотная LLM примерно с 350 миллионами параметров на основе гибридной SSM-архитектуры
  • Granite 4.0 1B и Granite 4.0 350M — традиционные трансформерные версии тех же размеров для случаев, где гибридные архитектуры еще не имеют оптимизированной поддержки

Все модели Granite имеют сертификацию ISO 42001 по ответственной разработке ИИ.

Рынок субмиллиардных моделей становится все более конкурентным — Alibaba с Qwen, LiquidAI с LFM, Google с Gemma уже показывают серьезные результаты. Но IBM удалось выжать из минимального количества параметров максимум возможностей, особенно в задачах следования инструкциям и вызова инструментов — критически важных для агентских рабочих процессов.

Производительность и сравнения

При сравнении с аналогичными моделями от других разработчиков Granite 4.0 Nano демонстрирует значительный рост возможностей при минимальном размере. Тестирование проводилось по общим бенчмаркам в областях общих знаний, математики, программирования и безопасности.

Сравнение средней точности моделей размером 0.2-2 млрд параметров по тестам Знания, Математика, Код и Безопасность

Источник: huggingface.co

Кроме общих тестов, Nano-модели превзошли несколько моделей схожего размера в задачах, критически важных для агентских рабочих процессов, включая следование инструкциям и вызов инструментов, согласно бенчмаркам IFEval и Berkley Function Calling Leaderboard v3.

Сравнение производительности на тестах IFEval и BFCLv3 для агентских рабочих процессов

Источник: huggingface.co

IBM продолжает развивать семейство Granite 4.0, работая над повышением эффективности ИИ-инструментов для разработчиков.

По материалам Hugging Face.

Похожие записи