Kubernetes

Разработка

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode
23 марта, 2026

Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.

Читайте далее Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode
Железо

ScaleOps запускает платформу по оптимизации локальной ИИ-инфраструктуры в компаниях
21 ноября, 2025

ScaleOps представила продукт для оптимизации GPU-инфраструктуры в корпоративных AI-развертываниях. Решение сокращает затраты на GPU на 50-70% и повышает эффективность использования ресурсов.

Читайте далее ScaleOps запускает платформу по оптимизации локальной ИИ-инфраструктуры в компаниях
Разработка

Databricks создала клиентскую систему балансировки нагрузки для Kubernetes
1 октября, 2025

Databricks разработала клиентскую систему балансировки нагрузки для Kubernetes, решающую проблемы стандартных механизмов при работе с высоконагруженными gRPC-сервисами.

Читайте далее Databricks создала клиентскую систему балансировки нагрузки для Kubernetes
Разработка

Solo.io запускает Kagent для управления AI-агентами в Kubernetes
17 сентября, 2025

Solo.io представляет Kagent Enterprise — платформу для управления AI-агентами в Kubernetes, решающую проблемы масштабирования и безопасности в продакшен-среде.

Читайте далее Solo.io запускает Kagent для управления AI-агентами в Kubernetes