С помощью среды выполнения MegaTrain обучили 100b модель всего на одном GPU
Разработчики представили MegaTrain — среду выполнения, которая позволяет обучать модели объемом более 100 миллиардов параметров на одном GPU за счет глубокой оптимизации работы с оперативной памятью.
