SuperOffload ускоряет обучение больших языковых моделей на суперчипах NVIDIA
Новая технология SuperOffload позволяет проводить тонкую настройку LLM до 70B параметров на суперчипах NVIDIA GH200 с ускорением до 4 раз и производительностью 600 TFLOPS.
Новая технология SuperOffload позволяет проводить тонкую настройку LLM до 70B параметров на суперчипах NVIDIA GH200 с ускорением до 4 раз и производительностью 600 TFLOPS.
PyTorch выпустил предварительно квантованные версии популярных языковых моделей с рецептами оптимизации для серверных GPU и мобильных устройств.
Практическое руководство по миграции с PyTorch на JAX для GPU-ускоренного машинного обучения: сравнение фреймворков, оптимизации памяти и стратегии масштабирования.
Meta* делится методами сокращения времени компиляции PyTorch 2.0 для крупных моделей рекомендательных систем, где компиляция могла занимать более часа.
PyTorch 2.8 представляет нативную поддержку высокопроизводительного квантованного вывода LLM на CPU Intel, конкурируя с vLLM без сторонних фреймворков.
Hugging Face анонсировал ZeroGPU — технологию для эффективного использования графических процессоров в машинном обучении, что может снизить costs вычислений.
PyTorch представил Nested Jagged Tensors, ускоряющие вывод модели DRAMA в 2.3 раза за счет исключения вычислений на pad-токенах.
DeepSpeed ZenFlow решает проблему простоя GPU при оффлоадинге, обеспечивая до 5x ускорение обучения больших языковых моделей без потери точности.
Hugging Face выпустила PTS — унифицированный фреймворк для параметр-эффективного обучения языковых моделей, который стандартизирует процесс тонкой настройки и ускоряет эксперименты.
Hugging Face представила инструмент для автоматизации сборки низкоуровневых ядер ML-библиотек, упрощающий оптимизацию кода под различные аппаратные архитектуры.