Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Новости о NVIDIA — производитель GPU для AI. Их чипы питают революцию машинного обучения. Капитализация превысила $3 триллиона.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Глава Nvidia считает, что ИИ не вызовет мгновенной безработицы, но радикально изменит структуру рынка, создав спрос на обслуживание и кастомизацию роботов.
Nvidia представила метод KVTC, позволяющий радикально снизить требования к видеопамяти для работы языковых моделей без изменения их весов.
Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.
NVIDIA представила обновление TensorRT Edge-LLM, внедряющее поддержку архитектур MoE и гибридных моделей для запуска продвинутого ИИ на чипах Jetson и DRIVE Thor.
Эпоха низких цен на использование ИИ-моделей подходит к концу. Лаборатории готовятся к IPO, что заставит их отказаться от субсидирования тарифов и перейти к прибыльности.
NVIDIA инвестирует в стартап бывших топ-менеджеров OpenAI для создания гигантского дата-центра на базе архитектуры Vera Rubin.
OpenAI завершила один из крупнейших раундов финансирования в истории технологий. Инвестиции пойдут на развитие вычислительных мощностей и партнёрство с AWS, усиливая зависимость индустрии ИИ от капиталоёмкой инфраструктуры.
Старые GPU Nvidia остаются востребованными благодаря глубокой привязке индустрии к CUDA. Программная экосистема снижает стимулы перехода на альтернативы, однако рост инференса и собственные чипы гиперскейлеров могут стать долгосрочным вызовом для компании.
Открытая архитектура RISC-V бросает вызов проприетарным стандартам Intel и Arm в гонке AI-чипов. Геополитическая нейтральность и поддержка гигантов вроде Nvidia делают её главным претендентом на смену парадигмы.