Featured image for servicenow vypuskaet multimodalnuyu ii model apriel 1 6 15b thinker s uporom na ekonomichnost

ServiceNow выпускает мультимодальную ИИ-модель Apriel-1.6-15b-Thinker с упором на экономичность

Компания ServiceNow представила новую мультимодальную модель искусственного интеллекта Apriel-1.6-15b-Thinker, которая демонстрирует передовые результаты в обработке текста, изображений и аудио при значительно сниженной стоимости обучения. По сообщению Hugging Face, модель сокращает расходы на обучение примерно на 40% по сравнению с аналогичными решениями.

Ключевые особенности

Apriel-1.6-15b-Thinker объединяет несколько инновационных архитектурных решений и методов обучения:

  • 15 миллиардов параметров, оптимизированных для мультимодального понимания
  • Унифицированная архитектура для бесшовной обработки текста, изображений и аудио
  • Экономичное обучение с использованием новых методов оптимизации
  • Передовые показатели в различных бенчмарках

Архитектурный обзор

Модель использует трансформерную архитектуру со специализированными энкодерами для каждой модальности, соединенными через общий механизм кросс-внимания. Это позволяет эффективно обрабатывать и понимать взаимосвязи между различными типами данных.

Результаты тестирования

Apriel-1.6-15b-Thinker демонстрирует конкурентоспособные результаты по различным метрикам оценки:

Понимание текста

  • MMLU: 75.2%
  • GSM8K: 82.1%
  • HumanEval: 45.3%

Визуально-языковые задачи

  • VQAv2: 78.9%
  • TextVQA: 68.4%
  • Визуальное рассуждение: 72.1%

Аудиопонимание

  • AudioSet: 45.6 mAP
  • ESC-50: 92.3%
  • Speech Commands: 96.1%

Методология обучения

Модель обучалась с использованием комбинации контролируемой тонкой настройки и обучения с подкреплением на основе человеческой обратной связи. Применялись стратегии обучения по учебному плану для постепенного усложнения мультимодальных задач в процессе обучения.

Стоимость обучения больших языковых моделей стала серьезным барьером для многих организаций, поэтому подход ServiceNow выглядит своевременным. Однако экономия в 40% — цифра, требующая проверки на реальных развертываниях. В индустрии часто заявляют об оптимизациях, которые на практике оказываются менее впечатляющими.

Практическое применение

Модель особенно хорошо подходит для:

  • Мультимодальных чат-ботов, способных понимать и отвечать на текст, изображения и аудио
  • Модерации контента через различные типы медиа
  • Инструментов доступности для пользователей с нарушениями зрения или слуха
  • Образовательных приложений, сочетающих различные модальности обучения

Доступность и перспективы

Веса модели и код для вывода доступны на Hugging Face. Компания предоставляет подробную документацию и примеры для быстрого старта пользователей.

ServiceNow продолжает совершенствовать Apriel-1.6-15b-Thinker и планирует выпустить более крупные варианты и специализированные версии для конкретных доменов. Текущие исследования сосредоточены на улучшении межмодального понимания и снижении задержки вывода.

Похожие записи