ServiceNow выпускает мультимодальную ИИ-модель Apriel-1.6-15b-Thinker с упором на экономичность
Компания ServiceNow представила новую мультимодальную модель искусственного интеллекта Apriel-1.6-15b-Thinker, которая демонстрирует передовые результаты в обработке текста, изображений и аудио при значительно сниженной стоимости обучения. По сообщению Hugging Face, модель сокращает расходы на обучение примерно на 40% по сравнению с аналогичными решениями.
Ключевые особенности
Apriel-1.6-15b-Thinker объединяет несколько инновационных архитектурных решений и методов обучения:
- 15 миллиардов параметров, оптимизированных для мультимодального понимания
- Унифицированная архитектура для бесшовной обработки текста, изображений и аудио
- Экономичное обучение с использованием новых методов оптимизации
- Передовые показатели в различных бенчмарках
Архитектурный обзор
Модель использует трансформерную архитектуру со специализированными энкодерами для каждой модальности, соединенными через общий механизм кросс-внимания. Это позволяет эффективно обрабатывать и понимать взаимосвязи между различными типами данных.
Результаты тестирования
Apriel-1.6-15b-Thinker демонстрирует конкурентоспособные результаты по различным метрикам оценки:
Понимание текста
- MMLU: 75.2%
- GSM8K: 82.1%
- HumanEval: 45.3%
Визуально-языковые задачи
- VQAv2: 78.9%
- TextVQA: 68.4%
- Визуальное рассуждение: 72.1%
Аудиопонимание
- AudioSet: 45.6 mAP
- ESC-50: 92.3%
- Speech Commands: 96.1%
Методология обучения
Модель обучалась с использованием комбинации контролируемой тонкой настройки и обучения с подкреплением на основе человеческой обратной связи. Применялись стратегии обучения по учебному плану для постепенного усложнения мультимодальных задач в процессе обучения.
Стоимость обучения больших языковых моделей стала серьезным барьером для многих организаций, поэтому подход ServiceNow выглядит своевременным. Однако экономия в 40% — цифра, требующая проверки на реальных развертываниях. В индустрии часто заявляют об оптимизациях, которые на практике оказываются менее впечатляющими.
Практическое применение
Модель особенно хорошо подходит для:
- Мультимодальных чат-ботов, способных понимать и отвечать на текст, изображения и аудио
- Модерации контента через различные типы медиа
- Инструментов доступности для пользователей с нарушениями зрения или слуха
- Образовательных приложений, сочетающих различные модальности обучения
Доступность и перспективы
Веса модели и код для вывода доступны на Hugging Face. Компания предоставляет подробную документацию и примеры для быстрого старта пользователей.
ServiceNow продолжает совершенствовать Apriel-1.6-15b-Thinker и планирует выпустить более крупные варианты и специализированные версии для конкретных доменов. Текущие исследования сосредоточены на улучшении межмодального понимания и снижении задержки вывода.
